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mente M£L), cuyo objetivo principal consiste en brindar una bibliografía adecuada a los es- 
tudiantes que se forman como profesores de Matemática en la República Democrática Ale- 
mana. 


Este libro, publicado en 1976, expone de forma rigurosamente exacta y desde posiciones 
acordes con nuestra concepción científica del mundo, los conceptos y métodcs fundamen- 
tales de la teoría de probabilidades y la estadística matemática. Por esta razón, y porque 
responde a las exigencias en cuanto a la formación en la disciplina Probabilidades y Es- 
tadística que deben tener los estudiantes de la Licenciatura en Educación, especialidad 
Matemática, se ha decidido la publicación de esta obra en nuestro país para que sirva de 
texto básico, lo cuai no exciuye su utilización por otro circulo de lectores. 


Esperamos que esta obra sea acogida favorablemente y que constituya un útil instru- 
mento en manos de nuestros estudiantes. 


DIRECCIÓN DE FORMACIÓN Y PERFECCIONAMIENTO DE PERSONAL PEDAGÓGICO 


Prefacio 


El presente tomo 11 de la Colección de textos de estudio Mathematik Лит Lehrer ofrece 
una introducción a la teoría de probabilidades y la estadística matemática, disciplinas que 
poseen una gran significación para las más diversas esferas de aplicación e investigación 
científica, razón por la cual han entrado a formar parte de la formación matemática en 
la escuela media superior ampliada. 

Este libro, en correspondencia con el objetivo general de la serie, está destinado, prin- 
cipalmente, a servir de texto básico en la formación de profesores de Matemática, pero 
además, debe ser apropiado para los estudiantes de otras especialidades que durante su 
estudio establezcan contacto con el Cálculo de probabilidades y la Estadística, o con ra- 
mas que empleen sus métodos y procedimientos. Por último, este texto debe brindarle.a 
los profesores en ejercicio un acceso seguro y racional a la Teoría de probabilidades y a 
la Estadística matemática, así como un medio de consulta útil para la preparación y rea- 
lización de cursos y círculos de interés sobre esta temática. 

En esta obra se utilizan siete, de un total de 13 capítulos, para exponer la Teoría de 
probabilidades; los primeros tres capítulos abarcan el Cálculo de probabilidades, mientras 
que los capítulos 4 hasta el 7 se dedican al tratamiento de variables aleatorias y alcanzan 
su punto culminante con la formulación de proposiciones acerca de la Ley de los Grandes 
Números y del Teorema integral de De Moivre-Laplace. A continuación del capitulo 8 so- 
bre Estadística descriptiva, se da respuesta a las principales interrogantes de la Estadís- 
tica matemática en los capítulos 9 hasta el 11, donde las estimaciones puntuales y por in- 
tervalo de confianza, así como las pruebas de significación constituyen los puntos clave. 
El capítulo 12 contiene algunas tablas; por una parte se debe dar con esto una visión nu- 
mérica de algunas distribuciones de probabilidad y, por otra, se agrupan aquí para la re- 
alización práctica de estimaciones por intervalo de confianza y pruebas de significación, 
percentiles frecuentemente utilizados en las distribuciones de probabilidad de los estadi- 
grafos correspondientes. Con el capítulo 13 se da un pequeño bosquejo de la historia del 
Cálculo de Probabilidades. Por último, hay que señalar la bibliografía al final del libro, 
pues aquí se encuentran también algunos consejos que deben servir para la elección de li- 
teratura adecuada (por ejemplo, para la aplicación de métodos estadísticos en la investi- 
gación pedagógica o para la realización de cursos y círculos de interés sobre el Cálculo 
de probabilidades). 
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Me he esforzado mucho por presentar los conceptos y proposiciones fundamentales de 
la Teoría de probabilidades de forma matemáticamente exacta, pero a la vez intuitiva, 
El objetivo esencial de los capítulos sobre Estadística matemática está en la explicación y 
fundamentación de las principales formas de deducción de esta disciplina. En su totali- 
dad, la exposición está hecha, de modo tal, que la aplicación práctica no debe ofrecer di- 
ficultad alguna. Además, se introdujeron por esto numerosos ejemplos de las más diversas 
ramas. Á causa de la extensión se tuvo que renunciar a una parte especialmente dedicada 
a ejercicios, que mostrara la amplia aplicación de la Teoría de probabilidades y de la Es- 
tadística matemática. El lector interesado puede encontrar también en la bibliografía re- 
ferencias al respecto. 

Quisiera aprovechar la ocasión para agradecer efusivamente a mi estimado maestro, 
Herr Profesor Dr. rer. nat. habil. Р.Н. Müller, quien ha revisado todo el manuscrito de 
forma sumamente crítica y me ha dado numerosas y valiosas indicaciones, tanto para la 
concepción y estructuración del libro, como también para su redacción definitiva. Ade- 
más, es para ті un agradable deber agradecer a los editores de la serie Mathematik für- 
Lehrer —en particular al editor coordinador, Herr Profesor Dr. sc. nat. W. Епве! ~ y a 
la empresa nacionalizada Deutscher Verlag der Wissenschaften— especialmente a Frl. 
Dipl.-Math. E. Arndt y a la redactora de este libro, Frau Dipl. —Math. К. Bratz- рог 
la grata cooperación, ayuda y competente asesoramiento. A continuación quisiera agra- 
decer cordialmente a los cajistas de la empresa nacionalizada Druckhaus “Máximo Gor- 
ki” en Altenburg por el cuidadoso trabajo realizado por ellos. Por último, tengo que agra- 
decer a Frl. I. Tittel y a mi esposa; ambas me han ayudado mucho en la confección del 
manuscrito. 

Espero que el libro responda a las necesidades. Aceptaré con gusto cualquier indicación 
proveniente del círculo de lectores. 


Dresden, febrero de 1976 
GERT MAIBAUM 
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O. Introducción 


La Teoría de probabilidades y la Estadística matemática, son disciplinas matemáticas re- 
lativamente jóvenes por sí mismas, donde la Teoría de probabilidades, como teoría inde- 
pendiente —que incluye a su vez numerosas disciplinas especiales y campos de aplica- 
ción— y como fundamento de la Estadística matemática, posee una significación particu- 
lar. и 


La Teoría de Probabilidades proporciona modelos matemáticos para la descripción de 
fenómenos sujetos a influjos casuales, y tiene como objetivo esencial la comprensión ma- 
temática de las regularidades de los fenómenos aleatorios. 

La Teoria de probabilidades se construye de forma axiomática, de acuerdo con un pro- 
cedimiento probado y muy utilizado hoy en día, y se sirve en gran medida de los métodos 
y resultados del Análisis. 


La Estadistiga matemática proporciona, sobre la base de la Teoría de probabilidades, 
métodos mediante los cuales se puede obtener información sobre las distintas poblaciones 
a investigar, utilizando datos muestrales aleatorios; con esto se da origen también a mé- 
todos de ajuste de un modelo matemático, que considere efectos aleatorios, al proceso real 
correspondiente, sobre' la base de datos concretos. El desarrollo de dispositivos electróni- 
cos de alta potencia para el procesamiento de datos, exige la aplicación de métodos de la 
Estadística matemática, en particular de los métodos de análisis estadístico (por ejemplo, 
los análisis de correlación, regresión, varianza y análisis factorial), en los más diversos 
dominios de la práctica. 


En los últimos decenios se desarrollaron numerosas disciplinas que se ocupan con in- 
terrogantes especiales de la Teoría de probabilidades y de la aplicación de métodos teó- 
rico-probabilisticos y estadísticos en distintas ciencias naturales y sociales (entre otras, en 
la pedagogía y la sicología), en la medicina, la técnica y la economía. Podemos citar como 
ejemplos, las teorias de la confiabilidad, la reposición, los juegos, la decisión, la informa- 
ción, la teoría ergódica, el diseño de experimentos, la biometría, la teoría del control es- 
tadístico de la calidad y la de la simulación por el método de Monte Carlo. Además, los 
métodos teórico-probabilísticos se utilizan de forma creciente y exitosamente en la ciencia 
militar, en el marco de la investigación de operaciones, de la toma de decisiones en los 
procesos económicos у en la cibernética. 
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La Teoría de probabilidades y la Estadística matemática, incluyendo sus disciplinas es- 
peciales y sus dominios de aplicación (todas las ramas del saber que se ocupan en lo esen- 
cial del tratamiento matemático de fenómenos aleatorios) son conocidas en los últimos 
tiempos con el nombre de estocásticas (стбҳоѕ: el objetivo, la suposición; griego). 


Junto a los fines de aplicación de la Teoría de probabilidades (por ejemplo, en la inves- 
tigación de la confiabilidad de sistemas sobre la base de la de sus componentes individua- 
les, en la determinación de las dimensiones de equipos de servicio o en la realización de 
controles de calidad en el marco de producciones masivas), se debe destacar también la 
significación de esta disciplina para el dominio de las ciencias naturales. Con las forma- 
ciones de conceptos y métodos de la Teoría de probabilidades es posible describir mate- 
máticamente numerosos fenómenos (por ejemplo, los problemas que se relacionar con el 
movimiento de las partículas elementales, ¡as leyes de Mendel en la biología. las leyes de 
los gases en la química y la física) de una forma aún más ajustada a la realidad objetiva, 
interpretar los resultados existentes de un modo nuevo y mucho más concluyente у. ade- 
más, obtener proposiciones nuevas de gran valor cognoscitivo. 


La aplicación práctica de la Teoría de probabilidades y de la Estadistica matemática 
se basa en el convencimiento de que el grado de indeterminación de, la ocurrencia de su- 
cesos aleatorios se puede determinar, en cada caso, de forma objetiva, mediante un nú- 
mero: la probabilidad. Para ello se parte, en correspondencia con la realidad objetiva, de 
que a los fenómenos dependientes de la casualidad, así como a los procesos que trans- 
curren de forma determinista, les son inherentes ciertas regularidades y de que la casua- 
lidad no significa ausencia total de reglas o caos. En este contexto se debe destacar que 
el concepto matemático probabilidad, que define en forma objetiva y cuantitativa la pro- 
babilidau de un suceso aleatorio, se diferencia del concepto de lo probable, utilizado en 
el lenguaje común, que tiene generalmente fuertes caracteres subjetivos y con el cual mu- 
chas veces solo se consideran proposiciones cualitativas. No obstante, se demuestra que 
las ideas subjetivas sobre la probabilidad de un suceso aleatorio se aproximan más y más 
a las relaciones objetivas que constituyen la esencia del concepto matemático probabili- 
dad, en la medida en que aumenta el arsenal de nuestras experiencias. 


Ahora nos dedicaremos a la construcción sistemática de la Teoria de probabilidades. Su 
representación se realiza en el marco de siete capitulos; los primeros tres capítulos abar- 
can la materia que se designa usualmente también como Cálculo de probabilidades. 
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1: Sucesos aleatorios 


En este capitulo nos ocuparemos de los sucesos aleatorios, que son aquellos que pueden 
presentarse bajo determinadas condiciones, pero no de forma obligatoria; nosotros los 


concebir плас dae зумом niat лс aloatorins son lo 


Viremos como resuitados ас experimentos aleatorios, gue son que tienen un de- 


os quécter 
senlace incierto en el marco de distintas posibilidades. Junto a la explicación detallada de 
estos y otros conceptos, trataremos en este capítulo las operaciones entre sucesos aleato- 
rios. Por último, llegaremos a conocer el concepto álgebra de sucesos, de gran importancia 
para la construcción axiomática de la Teoría de probabilidades. Analizaremos también la 


relación entre álgebras de sucesos, álgebras de Boole y álgebras de conjuntos. 


1.1 Experimentos aleatorios 


Entendemos por experimento aleatorio aquel cuyo resultado es incierto en el marco de dis- 
tintas posibilidades y se puede repetir un número de veces arbitrario (al menos mental- 
mente), manteniendo las mismas condiciones exteriores que caracterizan a dicho experi- 
mento. 


Ejemplos 
1. El lanzamiento de una moneda es un experimento aleatorio. Los posibles resultados 
de este experimento están caracterizados por “estrella arriba” y “escudo arriba” 


2. La tirada única de un dado después de agitarlo en un cubilete es un experimento 
aleatorio. Los posibles resultados de este experimento están caracterizados por el número 
que aparece en la cara superior del dado. 

3. Las tiradas de un dado después de agitarlo en un cubilete pueden considerarse como 
un experimento aleatorio. Si solo nos interesamos porque aparezca el número seis, este ex- 
perimento tiene n+1 resultados. (Las veces que aparezca el número seis es una llamada 
variable aleatoria discreta que puede aceptar los п+1 valores 0. 1, 2, ..., п.) 

4. La extracción al azar de una muestra de и objetos de una población (por ejemplo, 
la producción diaria de una fábrica) de N objetos, que contiene un número M de defec- 
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tuosos, puede entenderse como un experimento aleatorio, Aquí se realiza una extracción 
(sin reposición) de la muestra y cada uno de los N objetos en total tiene la misma opor- 
tunidad de ser sacado. Si solo nos interesamos por el número de objetos defectuosos en 
la muestra, este experimento tiene n+1 desenlaces, en el caso que se cumpla M> n. (El 
número de objetos defectuosos es también una variable aleatoria discreta, cuya distribu- 
ción de probabilidad desempeña una importante función en el control estadístico de la ca- 
lidad.) 


5. Toda medición (por ejemplo, de una longitud, un ángulo, un tiempo, una magnitud 


realizadas en un mismo objeto son, por lo general, diferentes a causa de las insuficiencias 
del observador para llevarlas a cabo con precisión una y otra vez. Por otra parte, las me- 
diciones realizadas en varios objetos iguales conducen también a resultados distintos, 
como consecuencia de las diferencias existentes entre estos. 


Por tanto, en un experimento aleatorio existen influencias que no son consideradas en 
su descripción, es decir, en la enumeración de las condiciones que lo caracterizan y que 
conducen a que el resultado de este sea incierto en el marco de distintas posibilidades. 

En la explicación anterior hemos también destacado, que los experimentos aleatorios 
pueden repetirse —al menos mentalmente — un número de veces arbitrario. Esta condi- 
ción permite el estudio de aquellas regularidades, que solo pueden reconocerse mediante 
un número elevado de repeticiones del experimento aleatorio correspondiente. (Expresa- 
mos también esta particularidad diciendo que los fenómenos en que se investigan tales re- 
gularidades son masivos.) El estudio de las regularidades que se presentan en los fenóme- 
nos aleatorios es el objetivo principal de la Teoría de probabilidades. 


1.2 Sucesos aleatorios 


Designaremos por suceso aleatorio un resultado de un experimento aleatorio. Por consi- 
guiente, este puede presentarse bajo las condiciones que caracterizan al experimento 
aleatorio y puede no presentarse. 

Describiznos frecuentemente un suceso aleatorio mediante la ilustración de la situación 
en que se presenta. Por lo genera! designamos los sucesos aleatorios con letras mayúsculas 
latinas, que en algunos casos pueden estar provistas de índices. 


Ejemplos. Nos remitiremos a los ejemplos de 1.1: 


1. A ... El escudo aparece arriba. 


2. A, ...El número obtenido al tirar el dado es igual a k(k=1,..., 6). 
В ... El número obtenido al tirar el dado es par. 


3. A, ... Las veces que aparece el número seis al realizar n tiradas del dado es igual a 
k (k=0, 1, 2, .... n). 
4. A, ... El número de los objetos defectuosos en la muestra aleatoria es igual a k(k=0, 
PA TE 
5. А... La magnitud que se mide está entre los límites de tolerancia. 
En las consideraciones sobre sucesos aleatorios queremos referirnos a aquellos que pue- 
den concebirse como casos especiales de sucesos aleatorios: sucesos seguros y sucesos im- 
posibles. 
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Los sucesos seguros son los que se presentan obligatoriamente bajo las condiciones que 
caracterizan al experimento aleatorio considerado; los sucesos imposibles son los que no 
se pueden presentar nunca. 

Designaremos, de forma única, los sucesos seguros con 5) (se lee: omega mayúscula) y 
los, sucesos imposibles. соп © (con el simbolo del conjunto vacío). 


Ejemplo.El experimento aleatorio consiste en la tirada única de dos dados después de 
agitarlos en un cubilete. Un suceso seguro es, por ejemplo, que la suma de los números 
obtenidos sea menor o igual que 12; un suceso imposible es, digamos, que la suma de los 
números obtenidos sea menor que 2. 


A menudo se pueden ilustrar los sucesos aleatorios por medio de subconjuntos sobre la 
recta numérica o en el plano. 


Ejemplos 

1. El experimento aleatorio consiste en rotar un disco al cual se ha fijado un indicador. 
Los infinitos resultados imaginables de este experimento son las posiciones que puede te- 
ner el indicador cuando el disco permanece quieto. Cada una de estas posiciones puede 
caracterizarse mediante la amplitud del ángulo ф formado entre el eje positivo de las x 
y el indicador (fig. 1). 


Figura 1 


De esta forma, todo suceso A relacionado con este experimento aleatorio puede descri- 
birse por medio del conjunto A de aquellas amplitudes de ángulos p que son “convenien- 
tes” para el suceso considerado, y decimos esto en el sentido de que el suceso А se pre- 
senta si y solo si la posición del indicador cuando el disco no se mueve se describe por 
una de las amplitudes de ángulos del conjunto Á. Si, por ejemplo, el suceso A consiste en 
que el indicador permanezca quieto en el tercer cuadrante, le asociamos a este suceso el 


A 3n Г A 
intervalo de n a — sobre el eje Ф, o sea, el conjunto 
2 


i= fo: LERES m (ver fig. 1). 


2. El experimento aleatorio consiste en tirar sobre un disco con diez circunferencias 
concéntricas de radios г, > г, >... >7,>0 (fig. 2). 

Todo suceso A. relacionado con este experimento, puede describirse mediante el conjun- 
to Á de todos los puntos convenientes” en el plano x, y para el suceso considerado, y de- 
cimos convenientes en el sentido de que A se presenta si y soio si el tiro acierta sobre un 
punto de Я. Si, por ejemplo, el suceso A es que el tiro disparado sea certero, se describe 
este suceso por medio del conjunto 


A=l(x. y): х+уа< п). 
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Figura 2 


El conjunto 
B=((x.y): беху? ri) 


representa al suceso B que se presenta si y solo si el tiro acierta en el anillo circular li- 
mitado por las circunferencias de radios r, y r, 


Para consideraciones generales se ilustran también los sucesos aleatorios mediante con- 
juntos de puntos en el plano. Posteriormente analizaremos más exactamente la estrecha 
relación entre los sucesos aleatorios y los conjuntos (ver 1.5). 


A continuación queremos definir una relación entre sucesos aleatorios con la cual se 
pueda después concebir también la igualdad de sucesos aleatorios en forma matemática. 
Además, nos imaginaremos siempre que los sucesos aleatorios observados pertenecen a un 
determinado experimento aleatorio. 


Definición 1. Si а la ocurrencia del suceso aleatorio A está siempre unida la ocu- 
rrencia del suceso aleatorio B, escribimos 


ASB, 


y se lce: 4 entraña B, A implica B о 4 es una parte de B (fig. 3). 


ACB Figura3 
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Luego utilizamos aqui un simbolo de la teoría de conjuntos (ver MfL Tomo 1, 1.5); la 
figura 3 debe recordarnos el comportamiento correspondiente en conjuntos. (Se puede ha- 
cer corresponder a un sistema de sucesos, perteneciente a un experimento aleatorio, un 
sistema de subconjuntos de un conjunto universo, de forma tal que la relación A Є В exista 
para sucesos aleatorios A, y B si y solo si el conjunto asociado al suceso A es un subcon- 
junto del asociado al suceso B. En particular, se hace corresponder al suceso seguro el 
conjunto universo y al suceso imposible, el conjunto vacío (ver 1.5). 


Ejemplo. Tirada de un dado. 


А... El número obtenido al tirar el dado es igual a 6 (4=16)). | АСВ 
>A € 
В... El número obtenido al tirar el dado es par (В={2,4.6}). 


Con la definición 1 se confirma enseguida que para todo suceso aleatorio A se cumplen 
las proposiciones siguientes: 


SSA, ASA. ASR. (1) 


Si con el suceso А se presenta siempre el suceso В y el В implica al suceso С. entonces 


el suceso A entraña evidentemente al suceso C. Expresado en fórmulas: 
4 


АСВ. ВЕС-АСС. (2) 
Llegamos ahora a la definición de la igualdad de sucesos aleatorios. 


Definición 2.Dos sucesos aleatorios 4 у В se llaman iguales (4 =B) si tanto el suceso 
А implica al suceso В(А Є В) como también a la inversa. el suceso В implica al suceso А 
(B <A). 3 


Esta definición contempla que dos sucesos aleatorios se consideran iguales si y solo si 
en cada repetición se presentan siempre ambos sucesos o no se presentan. 

Si dos sucesos aleatorios A y В no son iguales, expresamos esto a través de A +В. 

Por último, destacamos que la relación < es reflexiva y transitiva a causa de (1) y (2), 
y antisimétrica en virtud de la definición 2, es decir, que la relación © es una relación 
de orden parcial (ver МЯ. Tomo 1. 1.5.). En lugar de АСВ escribimos también В 2 А. 


1.3 Operaciones entre sucesos aleatorios 


En este epigrafe tratamos las operaciones entre sucesos aleatorios, cuya aplicación es muy 
conveniente y con frecuencia conduce a una formulación muy clara de distintos hechos, 
Aqui se presentan símbolos de operaciones conocidos del tratamiento de la teoría de con- 
juntos (ver МЯ. Tomo 1, 1.4). Aclaramos que si se sustituyen los sucesos que aparecen 
por conjuntos, surgen siempre de las proposiciones siguientes (sobre sucesos) proposicio- 
nes verdaderas de la teoría de conjuntos y viceversa, se obtiene de las proposiciones co- 
rrespondientes de la teoría de conjuntos proposiciones verdaderas sobre sucesos aleato- 
rios, si se sustituyen los conjuntos que aparecen por esos sucesos. (La fundamentación de 
esto lo proporciona un teorema sobre el isomorfismo entre las álgebras de sucesos y tas 
álgebras de conjuntos, que trataremos en el epigrafe 1.5.) Las figuras dadas a continua- 
ción de las siguientes definiciones de las operaciones entre sucesos aleatorios deben servir 
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para recordar las definiciones de las operaciones correspondientes con conjuntos. Todos 
los ejemplos de este epígrafe se refieren, para mayor sencillez, al experimento aleatorio 
consistente en la tirada única de un dado. 


1.3.1 Suma de sucesos 


Definición 1. Si A y В son sucesos aleatorios, entonces designamos al suceso que ocu- 
rre si y solo si al menos uno de los sucesos A y B ocurre, por 
AUB 


y se lee: 4 о B, suma de A y B o A unido con B (fig. 4). 


A Q B 


W. 4.8 Figura 4 


Ejemplo. Tirada de un dado. 

А... El número obtenido es par (А={2,4,6}). 

В... El número obtenido es mayor o igual que 3 (B=13,4,5,6)). 
AUB... El número obtenido es distinto de 1 (4uB=12,3,4,5,6)). 


Las siguientes proposiciones son fáciles de comprobar: 


Аоф=А, ACA=A, А00 =9, (1) 
ASAUB, BSAB, (2) 
AUB=BVA (conmutatividad), (3) 
A UIB OC) =(AUB) UC (asociatividad). (4) 


Sobre la base de la validez de la ley asociativa se puede definir la suma de n(n> 2) su- 
cesos aleatorios de la forma siguiente. 


Definición 2. Si A,, А, ..., А, son sucesos aleatorios, entonces designamos al suceso 
que ocurre si y solo si al menos uno de los sucesos A, (i=1,2,..., п) ocurre, por 
A VA, U... VÁ, 


o también con 
A 


ÚU A. 


i=l 


Generalizando, podemos designar al suceso que ocurre si y solo si al menos un suceso 
de la sucesión (infinita) A,. 4, ... de sucesos A, (1=1,2,...} ocurre, por 


A¡VÁ¿U... 
o también con 


UA. 


i=l 
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1.3.2 Producto de sucesos 


Definición 3. Si Лу В son sucesos aleatorios. entonces designamos al suceso que 


ocurre sí y solo si tanto А como В ocurre. por 


AaB 


y se lee: A y B. producto de 4 y B o intersección de A y B (fig. 5). 


Figura 5 


Ejemplo. Tirada de un dado. 
А... El número obtenido es раг (А = (2.4.6}). 
В... El número obtenido es menor que 3 (B=141.2). 


АПВ... El número obtenido es igual a 2 (45 B=12)). 
Las proposiciones siguientes son también fáciles de verificar: 


A00=0, ANA=A. АОО-А, * 
ACOBSA. АВ ЕВ. 

АоВ=ВОА (conmutatividad). 

АВ С) =(А В) ОС (asociatividad). 


(5) 
(6) 
(7) 
(8) 


Sobre la base de la validez de la ley asociativa podemos definir el producto де n(n> 2) 


sucesos aleatorios de la forma siguiente. 


Definición 4. Si А,. А, .... А, son sucesos aleatorios. entonces designamos al suceso 


que ocurre si y solo si cada uno de los sucesos А, (1=1.2..... n) ocurre, por 


А ПА, п... DA, 
o también por 
АЕ. 
1-1 
Generalizando. podemos designar al suceso que ocurre si y solo si cada uno de los su- 
cesos de la sucesión (infinita) А, А, ... de sucesos A,(í=1.2, ...) ocurre. mediante 
ADAN... 


o también 


ae 


Aquí queremos introducir aún dos conceptos sobre los cuales volverer os posteriormen- 


te, 
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Definición 5. Dos sucesos aleatorios A y B se llaman mutuamente excluyentes, si se 
cumple 
ANB=04. 
АВ = ф significa en cuanto al contenido, que la ocurrencia común de los sucesos 4 у В 
es imposible. Se dice también que 4 у В son incompatibles o que A y B son disjuntos 
(fig. 6). 


QR 
Anb=0 Figura 6 
Definición 6. Un conjunto {4,, 4, ..., 4, ...} de sucesos aleatorios 4,9 ф se Пата 
un sistema completo de sucesos, si se cumple 


ACA =0 (Ak), 
A VA, V... VA, U... =Q. 


Ejemplo. Tirada de un dado. 

A, ... El número obtenido al tirar el dado es igual a i (1=1,2,3,4,5,6). 
ÍA, Ap Ay Ay Ay A) es un sistema completo de sucesos. 

De modo general, si consideramos un experimento aleatorio que tiene siempre como re- 
sultado la ocurrencia de exactamente uno de los sucesos aleatorios 4,, A, ..., Ay ..., еп- 
tonces el conjunto de estos resultados forma un sistema completo de sucesos. 


1.3.3 Suceso contrario o complementario 


Definición 7. Si A es un suceso aleatorio, entonces designamos al suceso que ocurre 
si y solo si А no ocurre, por А y llamamos a este el suceso contrario o complementario de 
A (fig. 7). 


Q 


Figura 7 


Ejemplo. Tirada de un dado. 


A ... El número obtenido es menor e igual que 3 (А=(1,2,3}). 
Я... El número obtenido es mayor que 3 (4=(4,5,6)). 


Evidentemente рага un suceso A cualquiera se cumplen las relaciones 
ACVA=82 y ANA=4 (9) 
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Por tanto, si A es un suceso aleatorio que no es imposible ni seguro, es decir, 49 0, 
А #9, entonces el conjunto (4. A} es un sistema completo de sucesos. 
Además, se verifica directamente la validez de las proposiciones 


9=0, 0-0, (A)=A. (10) 


Seguidamente escribiremos algunas otras proposiciones, que no son difíciles de compro- 
bar: 


ASB=BCA, (11) 


АТВ = АОВ, más general: (1 A=U А, (12) 
i=l 


izl 


AUB= AMB, más general: UU 4=M A. (13) 
і=1 |" 


tE 


A continuación damos fórmulas para la descomposición de la suma de dos sucesos 
aleatorios en sucesos mutuamente excluyentes dos a dos (fig. 8). 


AUB=AU(BNA), (14) 
ACB=BAANB), (15) 
AuB=(4^B) (AnB) AAMB). (16) 


Dejamos al lector la fácil comprobación de lo anterior. 


Figura 8 


1.3.4 Diferencia de sucesos 


Definición 8. Si A y B son sucesos aleatorios, entonces designamos al suceso que 
ocurre si y solo si el suceso A, pero no el suceso B, ocurre, por 


ANB 
y se lee: A y no B, diferencia de 4 y B, A menos B (fig. 9). 


A о B 


W.. 14138 Figura 9 
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Ejemplo. Tirada de un dado. 
А... El número obtenido es par (А={2.4,6}). 
В... El número obtenido es menor e igual que 3 (B=(1,2,3)). 
ANB ... El número obtenido es igual а 4 баб (4\В= {4,6}. 
BNA ... El número obtenido es igual a 1 ó a 3 (BNA = (1,3}). 
Ya que la operación, se puede expresar sobre la base de la relación 
AB=ANB (17) 


mediante las operaciones ^n y —, podemos renunciar a otras explicaciones. Llamamos la 
atención de que para la operación \ no se cumple trivialmente la ley conmutativa (ver 
ejemplo anterior). 


1.3.5 Diferencia simétrica de sucesos 


Definición 9. Si A y B son sucesos aleatorios, entonces designamos al suceso que 
ocurre si y solo si Ао В. pero no ambos sucesos ocurren. por 
AAB 0 


y se lee: exactamente uno de los sucesos 4 \ В. diferencia simétrica de A y В (fig. 10). 


д QR В 


| У Figura 10 


Ya que la operación A se puede expresar sobre la base de la relación 
AMB(AB) UAB А) =(4 В) (BA) (18) 


mediante las operaciones ^, ху —, renunciamos también a otras discusiones al respecto. 
Solo queremos señalar que se cumple la conmutatividad para la operación A. 


1.4  Álgebras de sucesos 


Un álgebra de sucesos es un conjunto de sucesos aleatorios que, hablando sin mucho rigor, 
contiene, además de los sucesos interesados directamente en relación con un experimento 
aleatorio, a todos aquellos que resultan de estos mediante la aplicación de las operaciones 
tratadas. La fijación exacta de este concepto es el contenido de la definición siguiente. 


Definición 1. Un conjunto A de sucesos aleatorios se llama un álgebra de sucesos, 
si posee las propiedades siguientes: 


1. El suceso seguro pertenece а A: QEA. 
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2. Si dos sucesos aleatorios pertenecen a A, este contiene también su suma: 
АЕА, BeEA>AUBcA. 


3. Para todo suceso aleatorio perteneciente a A, este contiene también al suceso com- 
plementario: 


АсА-АЕА. 
Si A contiene infinitos elementos, posee también la propiedad siguiente: 


4. Para toda sucesión de sucesos aleatorios perteneciente a А, este contiene también su 
suma: 


А,ЄА (i=1,2, ...) » I А,ЄА. 
i=l 


De las propiedades mencionadas en la definición 1 resultan fácilmente otras propieda- 
des. 


Corolario. Sea A un álgebra de sucesos. Entonces A posee además las propiedades 
siguientes: 

1. El suceso imposible pertenece а А: фєА. 

2. Si dos sucesos aleatorios pertenecen a A, este contiene también su producto, su di- 
ferencia y su diferencia simétrica: 


AEA, ВЕА-АПВЕА, ANBEA, Ал BeA. 


3. Para toda sucesión de sucesos aleatorios pertenecientes a A, este contiene también 
su producto: 


А,ЄА(і=1,2, ...) > ( А,ЄА. 
і=1 
Demostración 
1. Se cumple = 0 (ver 1.3 (10)). De las propiedades 1 y 3 del álgebra de sucesos resulta que фєА. 
2. Se cumplen las siguientes identidades: 


ANB=AUB (ver 1.3 (13)), 
AB=ANOB (ver 1.3 (17)), 
ААВ=(4 В) UBNA) (ver 1.3 (18)). 


Si A y B son clementos del álgebra de sucesos A, entonces resulta, sobre la base de las propiedades 
2 у 3 del álgebra de sucesos, que AMBEA y de aquí (aplicando de nuevo las propiedades 2 y 3), que 


А\ВеА y AABEA, 
А\ВеА y АДВЕА. 


3. Se cumple (С A= б А, (ver 1.3 (12).) Si 4, (=1,2,...) son elementos del áigebra de su- 
cesos А, entonces resulta a consecuencia de la propiedad 3 del álgebra de sucesos AEA {{=1,2, ...). 
Considerando la propiedad 4 se obtiene U А,ЄА, y por último, en virtud de la propiedad 3 

U А,ЄА, es decir, рог la relación dada al principio se cumple A A EÀ. 


i=l і=1 


Un álgebra de sucesos es, por consiguiente, un conjunto de sucesos aleatorios, con la 
propiedad de que la aplicación de las operaciones introducidas en 1.3 a los elementos de 
este conjunto, proporcionan siempre elementos de este conjunto. 
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4 


№, 


Concluimos este epigrafe соп la definición del llamado suceso elemental y con una ob- 
servación sobre la estructura matemática del álgebra de sucesos. 


Definición 2. Sea A un álgebra de sucesos. Un suceso A €A se llama suceso elemen- 
tal (con respecto а A) si no existe un suceso BEA, Вефу BA, tal que se cumpla B СА. 
En caso contrario A se llama suceso compuesto. 


| Corolario. Las siguientes proposiciones son equivalentes: 
) 1. AEA es un suceso elemental. 

2. AEA no se puede representar de la forma A=BUC con BeA, CeA, B#A y CA. 
3. AEA está constituido de modo que para todo BeA se cumple A^B=¢ 0 АСВ. 


Desde el punto de vista de la estructura matemática, un álgebra de sucesos es un álgebra de Boole. 
Antes de fundamentar esto recordemos la definición de un álgebra de Boole. 


Definición 3. Sea М un conjunto sobre el cual están definidas dos operaciones + у · (es decir, 
funciones que asocian a cada dos elementos xeM y уЕМ los elementos x+y y x - y pertenecientes a М). 
M se llama un álgebra de Boole, si se satisfacen las proposiciones siguientes para cualesquiera elemen- 
tos x,y,z de М: 

. х+у=уч+х, Xx: y=y - x (conmutatividad). 4 

‚ х+(+2) =(х+у) +z, x - (y - 2) =(x - y) - z (asociatividad). 

о x+(x - y) =х, x- (х+у) =x (absorción). 

. ХУ 2) =(x+y) (х +2) (distributividad). 

. Existen elementos 0 у е en М соп x -0=0 y x+e=e. 

. Para todo xeM existe un х’ЕМ (el llamado complemento de х) con x-x"=0 y x+x'=e. 


Din La wN mm 


Corolario 3. Toda álgebra de sucesos es un álgebra de Boole. 


Demostración. Сото operación + empleamos a U у como operación -. а ^ sobre un álgebra 
de sucesos А. Entonces se cumplen las proposiciones 1 hasta 4 de la definición 3. Como elemento neutro 
respecto a la adición (+) utilizamos el suceso imposible ø : como elemento neutro de la multiplicación 
(-), el suceso seguro y, por último, empleamos como complemento de A EA el suceso complementario 
A correspondiente a A. Estos elementos poseen las propiedades exigidas en la definición 3 y pertenecen 
todos a A. Con esto A es, por tanto, un álgebra de Boole. 


1.5  Álgebras de sucesos y álgebras de conjuntos 


Ahora estudiaremos la estrecha relación que existe entre los sucesos aleatorios y los con- 
juntos, más exactamente entre las álgebras de sucesos y las álgebras de conjuntos. Para 
ello recordemos la definición de un álgebra de conjuntos. 


Definición 1. Un sistema A de subconjuntos de un conjunto universo (2 se llama un 
álgebra de conjuntos (sobre (2), si posee las propiedades siguientes: 


1. El conjunto universo Q pertenece а A: QEA. 
2. Si dos subconjuntos де © pertenecen a A, este contiene también su unión: 


АЕА, BeEA>AUBEA. 


3. Para todo subconjunto de © perteneciente а A, este contiene también su complemen- 
to respecto al conjunto universo: 


ASA>A€A. 
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Si, además, la siguiente condición 4 se satisface, entonces А se llama una o- álgebra de 
subconjuntos de © y el раг [92, А] se llama un espacio medible. 

4. Para toda sucesión de subconjuntos pertenecientes a А, este contiene también su 
unión: 


A, EA (i= 1,2,...) > U А,вА. 


Corolario 1. Toda álgebra de conjuntos es un álgebra de Boole. 


Demostración. Se desarrolla análoga a la demostración del corolario 3 (1.4). 


El siguiente teorema de M.H. Stone proporciona la relación anunciada entre álgebras 
de sucesos y álgebras de conjuntos. 


Teorema 1. Para toda álgebra de sucesos se puede indicar un álgebra de conjuntos 
isomorfa. 


Tenemos que renunciar a la demostración de este profundo teorema, pero todavía que- 
remos explicar un poco su contenido. 

Si A es un álgebra de sucesos, entonces existe un conjunto universo ñ y un álgebra 
А de subconjuntos de este conjunto $% con las propiedades siguientes: 


1. Existe una aplicación biunivoca de A sobre A. 


2. Al suceso seguro © le corresponde el conjunto universo Q y al suceso imposible el 
conjunto vacio. 


3. Si designamos con Č el conjunto (e A) asociado al suceso С е А, entonces a la suma 
de los sucesos 4 у В (es decir, al suceso AUB) le corresponde la unión de los conjuntos 
Á y B (es decir, el subconjunto ДОВ de Я), al producto de los sucesos A y B (es decir, 
al suceso A ^B), la intersección de los conjuntos А у В (es decir, el subconjunto AMB de 
$), у al suceso A el conjunto complementario de Á respecto a б (es decir, el subconjunto 
Á de $). 

4. Sia la ocurrencia del suceso A(€A) está siempre unida también la ocurrencia del su- 
ceso В (eA) (es decir, se cumple АСВ), entonces Д es un subconjunto de В (es decir, 
se cumple А с В). 


Por tanto, podemos considerar siempre en lugar de un álgebra de sucesos А, el álgebra 
de conjuntos isomorfa existente según el teorema anterior, y saber cómo las operaciones 
entre los sucesos aleatorios se expresan como operaciones entre los conjuntos asociados. 
(Por lo demás, hemos ya anticipado esto mediante el uso de los mismos simbolos para las 
operaciones. Con esto queda claro que las reglas de cálculo para operar con sucesos 
aleatorios siempre llevan implícitas las reglas de cálcuio para operar con conjuntos, y vi- 
ceversa.) En las exposiciones posteriores no partiremos en muchas ocasiones de un ál- 
gebra de sucesos, sino del álgebra de conjuntos іѕототѓа a ella, sobre la base del teorema 
de М.Н. Stone. Aquí supondremos siempre que se trata de una c-álgebra. Además, que- 
remos simplificar la escritura, de modo que designaremos al álgebra de sucesos y a la 
c-álgebra correspondiente con el mismo símbolo А. De acuerdo con esto, nombraremos 
a los sucesos y a los conjuntos asociados con el mismo simbolo; en particular, designare- 
mos también con Q al conjunto universo asociado al suceso seguro £2 (cuyos elementos se 
nombran muchas veces sucesos elementales). 

Por tanto, el punto de partida de nuestras consideraciones posteriores será un álgebra 
de sucesos А o un espacio medible [92, Al. 
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2. Probabilidad 


En este capitulo nos dedicaremos al concepto probabilidad, que constituye el concepto cen- 
tral y fundamental de la Teoría de probabilidades y también de la Estadística matemática. 
Aquí caracterizamos al concepto probabilidad mediante axiomas, de acuerdo con un pro- 
cedimiento usual hoy en día en la matemática moderna (epigrafe 2.4). Para la formación 
del sistema de axiomas partiremos de las propiedades comunes de la frecuencia relativa 
(epigrafe 2.1) y del así llamado concepto clásico de probabilidad (epigrafes 2.2 y 2.3). El 
concepto clásico de probabilidad se basa en la —en realidad no universalmente aplica- 
ble— definición clásica de probabilidad, que en realidad no es universalmente aplicable, 
y según la cual la probabilidad de un suceso aleatorio es igual al cociente del número de 
resultados del experimento “convenientes” para el suceso observado, entre el número total 
de posibles resultados; en una relación semejante se dice que un resultado del experimento 
es conveniente para un suceso, cuando este implica la ocurrencia del suceso considerado. 
Las consideraciones sobre la frecuencia relativa deben convencernos, en particular, de 
que cl grado de indeterminación de la ocurrencia de un suceso aleatorio se puede concebir 
siempre de forma objetiva mediante un número. En este contexto llamamos la atención de 
que el concepto probabilidad utilizado en el lenguaje común muestra con frecuencia ca- 
racteres subietivos y que con este sólo se intenta dar en muchas ocasiones una proposición 
cualitativa con respecto al propio convencimiento de la ocurrencia de una situación de- 


terminada. 
Se calcularon probabilidades antes de que existiera una construcción axiomática del 


Cálculo de probabilidades (por ejemplo, en el marco de la estadística poblacional, en pro- 
blemas de aseguramiento y también en juegos de azar). No obstante, el desarrollo impe- 
tuoso de la técnica y de las ciencias naturales desde el comienzo de nuestro siglo situó al 
cálculo de probabilidades exigencias elevadas. De aquí se desprendió la necesidad de cons- 
truir el Cálculo de probabilidades, y con esto la Estadistica matemática, como una disci- 
plina matemática rigurosamente fundamentada. La solución de este problema, uno de los 
23 grandes problemas de la matemática nombrados por el famoso matemático alemán D. 
Hilbert (1862-1943) en el Segundo Congreso Internacional de Matemáticos en París 
(1900), fue lograda por el importante matemático soviético A.N. Kolmogorov (nacido en 
1903), quien publicó en 1933 una construcción axiomática de Cálculo de probabilidades, 
que se ha convertido en la base de todos los libros de texto modernos existentes, sobre la 
Teoría de probabilidades. 
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Es interesante que D. Hilbert en su conferencia en el año 1900 en París considerara al 
Cálculo de probabilidades como un capitulo de la física, en el cual los métodos matemá- 
ticos desempeñan un papel sobresaliente. Solo por medio de la fundamentación axiomá- 
tica del Cálculo de probabilidades y la explicación de los conceptos fundamentales ligados 
a este por A.N. Kolmogorov se integra el cálculo de probabilidades al edificio de la ma- 
temática de forma armónica y como una valiosa disciplina especial, 


2.1 Frecuencia relativa 


Designemos por A un suceso aleatorio que está en relación con un experimento aleatorio 
cualquiera (por ejemplo, А puede ser obtener un 6 cuando se tira un dado una sola vez). 
Repitamos este experimento n-veces, independientemente una vez de otra, y contemos 
cuántas veces ocurre el suceso А en estos experimentos. Si A ocurre en total m veces, еп- 


А т Р 3 
tonces m se llama frecuencia absoluta de A y — , frecuencia relativa de A en estos n ex- 
perimentos. n 


En general, queremos designar la frecuencia absoluta de 4 en n experimentos con 
F, (4) y la frecuencia relativa de A en n experimentos, con f, (4). Los valores para la 
frecuencia absoluta F, (4) de un suceso А en n experimentos, pueden ser los n+1 números 


. Ў y 1 2 
0,1,2, ..., n—l, м y para la frecuencia relativa f,(4), los números: 0, —, —, 
n n 
n-1 r 3 3 } 
255 ‚ 1. La frecuencia absoluta o relativa en una serie de experimentos concreta по 
n 


se puede predecir con seguridad; las frecuencias absoluta y relativa son medidas depen- 
dientes de la casualidad, llamadas variables aleatorias (nosotros las clasificaremos más 
tarde como variables aleatorias discretas y determinaremos la distribución de probabili- 
dad que les pertenece). 

Seguidamente escribiremos algunas propiedades de la frecuencia relativa, cuya demos- 
tración dejamos al lector. 


Corolario 1 

. 0< f{A)< 1. 

JS. (Q)=1. 

ACB) =f (A) +f (B) para ADSB=09. 
7, (6) =0. 

А) =1 -f 4A). 

. JAA OB) =f 14) HLB) LS {A В). 

. De A SB resulta /(4) < f, (В). 


JPA la bh Y Nml 


Observemos en relación con las propiedades 2 y 4, que de f (4) =1 o (А) =0 no se pue- 
de deducir que A seá un suceso seguro o imposible. 

Podemos concebir la correspondencia A =f (4) (пез un número natural fijo) como una 
función que a cada suceso aleatorio A, que está en relación con el experimento aleatorio 
observado, le hace corresponder un número situado entre cero y uno, mostrándose las 
propiedades principales de esta función en el corolario 1. El dominio de definición de esta 
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función es, por tanto, un conjunto de sucesos aleatorios; queremos suponer siempre que 
se trata de un álgebra de sucesos. 


En relación con el corolario 1 se debe hacer hincapié en una cuestión importante para la forma de 
proceder en la caracterización axiomática del concepto probabilidad: toda función real / definida sobre 
un álgebra de sucesos que posea las propiedades 1, 2 y 3, posee también las propiedades 4, 5, 6 y 7. 
Aquí queremos demostrar esto solo en un ejemplo; mostremos que de las propiedades 2 y 3 resulta la 
propiedad 5: se cumple ANA=4 y por la propiedad 3, NAUA) =ДА) +-ДА). А cada causa de que 
Av Á=282 se cumple, por la propiedad 2, la relación ДА A) =1. Luego, se cumple 1=ДА) +AA), es de- 
cir. se cumple ДА) =1-ДА). 


Analizaremos ahora hasta dónde la frecuencia relativa de un suceso (en una serie de 
n repeticiones de un mismo experimento, realizadas independientemente una de otra), es 
una medida apropiada para el grado de indeterminación de la ocurrencia de este suceso. 

Para determinar un valor concreto de la frecuencia relativa se tiene que realizar «pri- 
mero una serie de experimentos semejante; por lo demás se obtendrá generalmente un va- 
lor distinto al repetir la serie de experimentos considerada. Pero si se llevan a cabo largas 
series de repeticiones independientes de un mismo experimento y se indaga cada vez la 
frecuencia relativa del suceso aleatorio considerado, se comprueba que estos números se 
diferencian poco unos de otros, es decir, que la frecuencia relativa muestra una cierta es- 
tabilidad. Luego, las frecuencias relativas del suceso A varían ligeramente, por lo general 
alrededor de un cierto valor que frecuentemente desconocemos. Queremos llamar a este 
valor la probabilidad del suceso A. Está claro que no podemos calcular la probabilidad de 
un suceso por esta vía, sino solo obtener un valor estimado para esa probabilidad. Sin em- 
bargo, con esto hemos logrado el convencimiento de que el grado de indeterminación de 
la ocurrencia de un suceso aleatorio se puede caracterizar de forma objetiva mediante un 
número. 


Ejemplo. Tomamos este ejemplo de la literatura. Científicos significativos como, por 
ejemplo, el Conde de Buffon (1707-1788), creador de un método teórico-probabilístico pa- 
ra la determinación aproximada del número n, у К. Pearson (1857-1936), fundador de 
una famosa escuela en la rama de la Estadística matemática en Inglaterra, estudiaron el 
efecto de la estabilización de la frecuencia relativa, en el ejemplo de la tirada de la mo- 
neda, entre otros. Sea A el suceso “número arriba”. 


Número de tiradas Frecuencia absoluta Frecuencia relativa 
de la moneda: » de А:Е, (4) FA) 
de Af, (A) = 
п 
DE BUFFON 4 040 2 048 (2 020) 0,5080 
K. PEARSON 12 000 6 019 (6 000) 0,5016 
K. PEARSON 24 000 12 012 (12 000) 0,5005 


Esperamos que aproximadamente en la mitad de todas la tiradas de la moneda ocurra 
el suceso A. En la tercera columna de la tabla anterior hemos indicado los valores espe- 
rados entre paréntesis. La tabla muestra claramente que lo que esperábamos se satisface 
tanto mejor cuanto mayor es el número de tiradas realizadas. 


Por último, queremos analizar la interrogante de si para toda serie de experimentos con- 
creta, la sucesión (f, (4)) de las frecuencias relativas f, (4) de un suceso А converge hacia 
un límite común f (4) cuando n — <. (Si este fuera el caso se podría definir sencillamente 


0 


28 


la probabilidad de un suceso aleatorio como el límite de la sucesión de las frecuencias re- 
lativas.) Pero esto no es así. Por un lado, solo es posible crear una sucesión finita de fre- 
cuencias relativas, de modo que no se puede decidir nunca si existe la convergencia de la 
sucesión investigada, convergencia entendida en el sentido de la de las sucesiones numé- 
ricas. Por otro lado, aún si no se presta atención a esta circunstancia, se puede pensar 
también que no tiene que existir una convergencia de la sucesión (f,(4)). Si se cumpliera 
que lim /,(4) =/(4), entonces existiría para todo £>0 un número natural n, tal que 
ES 


CA) -fa)j<e para todo n> п, Pero recurriendo al ejemplo anterior es fácil imaginar 
que el suceso “número arriba” no ocurre ni una sola vez en series de experimentos muy 
largas, de modo que la inecuación у, (4) – (А) [<= para un número suficientemente pe- 
queño =>0 no se cumple para todo п a partir de un cierto índice n, (A decir verdad un 
caso semejante nos parece muy ““improbable”.) 

Una formulación matemática precisa del efecto de estabilización de la frecuencia rela- 
tiva se realiza más tarde por otro camino con el tratamiento de la Ley de los Grandes Nú- 
meros. 


2.2 Definición clásica de probabilidad 


Mucho antes de la fundamentación axiomática del Cálculo de probabilidades, se calcula- 
ron probabilidades de sucesos aleatorios. La definición de probabilidad en la cual se ba- 
saban dichos cálculos se conoce hoy como definición clásica de probabilidad que estudia- 
remos en este epígrafe. 

Sea el punto de partida un experimento aleatorio con un número finito de resultados 
igualmente posibles, es decir, que no se diferencian con respecto al grado de indetermi- 
nación de la ocurrencia. Todo suceso aleatorio A en relación con el experimento aleatorio 
considerado, se puede caracterizar por la enumeración de aquellos resultados que son fa- 
vorables para este suceso, es decir, que provocan su ocurrencia. Si designamos соп g(4) 
su número у con k(< œ) el de todos los resultados, entonces la razón de #(4) y К pro- 
porciona una idea sobre el grado de seguridad de la aparición del suceso aleatorio A. En 
el marco de la llamada definición clásica de probabilidad, a este cociente se le llama pro- 
babilidad del suceso aleatorio А y se designa con РА): 


ҢА) = &(А) _ número de los resultados favorables para A 
7 Я 


u) 
número total de los resultados 

Observación. Соп frecuencia, en la literatura se encuentran formulaciones que solo 
se diferencian de esta en que en lugar de la palabra resultados se utilizan las palabras po- 
sibilidades o casos. La fórmula (1) se debe al matemático francés Р.5. Laplace (1749- 


1827); el principio sobre el cual se basa la fórmula (1) se nombra con frecuencia Principio 
de los casos igualmente posibles de Laplace. 


Ejemplo. En un recipiente se encuentran 150 piezas troqueladas, de las cuales 21 no 
tienen una medida adecuada. El experimento aleatorio consiste en la extracción de una 
pieza, teniendo cada una de ellas la misma oportunidad de ser tomada. Calculemos la 
probabilidad de que la pieza extraída aleatoriamente de esta forma, tenga las medidas 
correctas (suceso 4). 
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Número de resultados posibles: 150 
Número de los resultados favorables para A: 150-21=129 
Con esto se, obtiene 


P(A) = 0 _ 129 4% 08 =86 %. 
k 150 50 

La aplicación de la definición clásica de probabilidad está permitida solo en el marco 
de determinados experimentos aleatorios. Queremos reflexionar sobre cómo se reflejan las 
condiciones de los experimentos aleatorios en propiedades (adicionales) de las álgebras de 
sucesos. Designemos con A al álgebra de sucesos correspondiente a un experimento 
aleatorio con un número finito de resultados A,, A» ..., A, igualmente posibles, que deben 
concebirse como sucesos elementales de dicha álgebra de sucesos. Todo suceso aleatorio 
arbitrario АеА, 43 ф se puede expresar сото la suma de aquellos sucesos elementales 
A, que implican a A, es decir, para los cuales se cumple que 4, Є A. Para hallar la pro- 
babilidad del suceso A es necesario conocer solo, junto al número total k de los sucesos 
elementales, el número de los sucesos elementales А, que implican a A. Con esto está claro 
que a cada suceso aleatorio 4 €A está asociado de forma unívoca mediante (1) un número 
real, o sea, que por medio de (1) está definida una función real sobre A. En particular 
se cumple a causa de 


gA) =8(4) =...=8(4,) =1 


la relación 
1 
Р(А,) =PA) =... =P(4) = PE (2) 


es decir, la condición de que los resultados sean igualmente posibles se refleja en que los 
sucesos elementales A(¿=1,2,...,k) tienen la misma probabilidad. 


A continuación enunciaremos algunas propiedades y reglas de cálculo para el concepto 
clásico de probabilidad, y con esto para la función А - Р(А) sobre А dada por (1), cuya 
demostración dejaremos al lector (ver 2.1, corolario 1). 

Corolario 1 
. 0< ДА) < 1. 

. PQ) =1. 

. ACB) =Р(А) +P(B) para ANB=4. 
Рф =0. 

. АЯ) =1-Р(А). 

. ВАВ) =P(A) +Р(В) —P(4 ^B). 

7. De АСВ resulta P(4) < РВ). 


оол рь YN 


Como suplemento de las propiedades 2 y 4 aclaramos que de P(4) =1 o P(4) =0 se deduce que А=Я 
o A=4. Un suceso aleatorio А tiene, por consiguiente, la probabilidad uno o cero si y solo si es un su- 
ceso seguro o imposible. 

Además, se debe llamar la atención de que es suficiente demostrar las proposiciones 1 hasta 3, ya 
que como fue explicado en el epigrafe 2.1, toda función real definida sobre un álgebra de sucesos que 
posea las propiedades 1 hasta 3, posee también las propiedades 4 hasta 7. 


A la definición clásica de probabilidad, corresponde una significación especial, porque 
sobre esta base se pueden calcular probabilidades. El cálculo de las probabilidades que nos 
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interesan, o sea, el cálculo del número de los casos posibles y del de los: convenientes еп 
cada ocasión, se efectúa, por lo general, соп los métodos de la combinatoria (ver MfL, To- 
mo 1,3.6). Esto no es siempre muy sencillo. 


Ejemplos 
1. Calculemos la probabilidad para ganar la lotería * en ‘5 de 35” (suceso С), es decir, 
para acertar tres números (suceso А), cuatro (suceso В) o cinco (suceso С). Se cumple 


k-05 Y 35:34 .33-32-31 
57 1.2.3.4.5. 


gta) =(* ) (°% )- 5.4 ‚30.29 =4 350, 
3 2 1.2 1.2 
&в)-( )(%)->. „20 150, 

4 1 1 1 
80 =(* ) (Par, 

5 0 


Con esto obtenemos о 


=324 632, 


í З 
P(A)= RE 435% 0.0134 (probabilidad de obtener tres), 

k 324 632 

B 
P(B) = 808) __150 0.0005 (probabilidad de obtener cuatro), 

k 324 632 

AO 1 и | 

P(C) = == -=0,000 003 (probabilidad de obtener cinco). 

k 324 632 


Ahora, se cumple que G=4AUBUC siendo los sucesos А,В y С mutuamente excluyentes 
dos a dos. Por tanto, se cumple que P(G) =P(4) + Р(В) + P(C) (ver corolario 1, proposición 
3) y obtenemos finalmente P(G) =0,014 (probabilidad de una ganancia). 

2. Se eligen de forma aleatoria п personas (aleatoria en el sentido de que cada persona 
tiene la misma oportunidad de ser elegida) de un conjunto grande de estas (por ejemplo, 
del conjunto de los habitantes actuales de la ciudad de Dresde) y se anotan las fechas de 
sus cumpleaños. Nos interesaremos por la probabilidad de que por lo menos dos de estas 
personas cumplan años el mismo día (suceso A). En la solución de este problema supo- 
nemos adicionalmente que las personas que han nacido el 29 de febrero de un año bisiesto 
no han sido elegidas de modo que tenemos que calcular en total solo con 365 dias. Ade- 
más, suponemos que la probabilidad de que una persona elegida de forma aleatoria cum- 


pla años un día determinado, es igual para los 365 días, luego es igual a == 
6 


Indagamos primero el número k de los posibles resultados del experimento, consistiendo 
un posible resultado en elegir п días (no necesariamente distintos) de los 365. El número 


Е : 365 · 365 ... 365 
de estas posibilidades es igual (considerando la sucesión) а k= —————————=365" 
n factores 


(por lo demás se cumple que para n>4, k=365" es mayor que un billón). 


* Juego de lotería televisivo en la República Democrática Alemana. 
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Para el cálculo de la probabilidad buscada tenemos que averiguar ahora el número g(4) 
de los resultados favorables para A. Es mucho más conveniente calcular primero el nú- 
mero g(4) de-los desenlaces favorables para A. El suceso А consiste en que entre las и 
personas elegidas no haya dos o más que cumplan años el mismo día, es decir, en que ca- 
da una de las n personas cumpla años un día distinto al de todos los demás. El número 
de los resultados favorables para A es igual (considerando de nuevo la sucesión) a 


9-38 -364 ... (365-(n-1)) (6 ) К 
п 


п factores 


De aquí obtenemos que 


(E ) i 

SE п. 

А) SA Е ац 
k 365" 


de donde resulta, según una fórmula anterior (ver corolario 1, proposición 5), la proba- 
bilidad buscada 


Е ) 0 


365" 


PIA) =1 —P(A) =1- 


En la tabla siguiente damos, para distintas n, la probabilidad de que entre n personas, por 
lo menos dos cumplan años el mismo día. 


n 10 20 22 23 24 30 40 50 


P(A) 0,12 0,41 0,48 0,51 0,54 0,71 0,89 0,97 


(Para n>365 se obtiene naturalmente que P(4) =1.) 


2.3 Definición geométrica de probabilidad 


La fórmula (1) indicada en el epigrafe 2.2 para el cálculo de probabilidades de sucesos 
aleatorios es solo aplicable cuando el experimento aleatorio considerado posee un número 
finito de resultados igualmente posibles. Ahora, existe una serie de experimentos aleato- 
rios que no satisfacen estas condiciones, pero para los cuales se puede indicar, de forma 
semejante, una fórmula para el cálculo de las probabilidades que nos interesan. Siempre 
y cuando pueda interpretarse el experimento aleatorio como el modelo de la tirada 
aleatoria de un punto sobre un dominio básico E cualquiera del espacio euclidiano n-di- 
mensional, donde la palabra aleatoria debe entenderse de modo que: 


1. El punto lanzado pueda caer sobre todo punto arbitrario de E y 
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2. los sucesos A y B, a los cuales corresponden dominios parciales de igual medida (por 
ejemplo, intervalos de igual longitud, conjuntos de puntos en el plano de igual área, cuer- 
pos en el espacio tridimensional de igual volumen). posean también la misma probabili- 
dad, se calcula la probabilidad de un suceso A, que esté en relación con un experimento 
semejante, según la fórmula 
míA) _ Medida del dominio parcial de Е correspondiente al suceso А 


zX  _ —_ A __— —_ (1) 


PA) = ; FK я 
m(E) Medida del dominio básico E 


(definición geométrica de probabilidad (fig. 11). 


Figura 11 


Por tanto, la probabilidad de un suceso es independiente de la configuración especial 
y de la situación del dominio parcial que representa al suceso A; ella es proporcional a 
la medida (o sea, proporcional a la longitud, al área, al volumen) de este dominio parcial. 
Formulado de otra manera, la probabilidad de un suceso es, por consiguiente, igual a la 
razón de las medidas del dominio parcial conveniente para el suceso y del dominio básico. 
En esta formulación de la definición geométrica de probabilidad se muestra claramente la 
analogía con la definición clásica de probabilidad. El principio de los casos igualmente po- 
sibles de Laplace, sobre el cual se basa la definición clásica de probabilidad, se manifiesta - 
en esta definición geométrica al establecer que los sucesos a los cuales corresponden do- 
minios parciales de igual medida poseen la misma probabilidad. 


Ejemplo. Dos personas acuerdan encontrarse en un lugar determinado entre las 
12 pm y la 1 am. Cada una de las personas elige el momento de llegada, independiente- 
mente una de otra. Sin embargo, ambas se comprometen a estar con seguridad entre las 
12 pm y la 1 am en el lugar acordado; no se hacen indicaciones más precisas con respecto 
al momento del arribo. Ahora, ellas concertan que en caso necesario, cada una espere a 
la otra 15 min, pero que después se vaya. Calculemos la probabilidad de que ambas per- 
sonas se encuentren. Para el cálculo de la probabilidad buscada tomemos por base la de- 
finición geométrica de probabilidad. 

Designemos los tiempos de llegada de las dos personas con x y y, respectivamente (por 
ejemplo, ambos medidos en minutos y fracciones de minutos después de las 12 pm) y re- 
presentémoslos como puntos en el plano (fig. 12). 

El suceso A, consistente en que ambas personas se encuentren, es descrito por medio 
del conjunto {(х, y): 0< x< 60,0< y< 60, |х-у|< 15). De la figura 12 inferimos directa- 
mente que 


45 - 45 


т(А) =60 .60—2. ‚ M(E) =60 - 60 
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y obtenemos con esto para la probabilidad buscada 


ma) . 


iii =i-(; } 3 


Figura 12 


La probabilidad del encuentro con 15 min de espera es, por tanto, algo menor que 0,5. 
Dejamos al lector que verifique que, por ejemplo, la probabilidad del encuentro con 
30 min de espera es igual a 0,75. Además, el lector puede deducir fácilmente una relación 
general entre la probabilidad del encuentro y el tiempo de espera. 

Obsérvese que a los sucesos aleatorios a los cuales corresponde un dominio parcial, que 
posee una dimensión más pequeña que el dominio básico Е (por ejemplo, un punto sobre 
una recta numérica, una recta en el plano, un plano en el espacio), les corresponde la 
probabilidad cero. 


La definición geométrica de probabilidad dio motivo en épocas anteriores a todo tipo de falsos en- 
tendimientos, equívocos y críticas; esta condujo incluso en cierta medida a un rechazo del cálculo de 
probabilidades como disciplina científica. Para fundamentar esto se hizo referencia a problemas cuya 

solución es dependiente del método utilizado, es decir, que conducen a distintos resultados con métodos 
` de solución diferentes. La causa de esto по radica en cualesquiera contradicciones del concepto geomé- 
trico de probabilidad, sino en la insuficiente precisión en el planteamiento del problema. Traemos un 
ejemplo que es conocido en la literatura como la paradoja de Bertrand; este proviene, como otros mu- 
chos ejemplos semejantes, del matemático francés J. Bertrand (1822-1900). 


Problema. En una circunferencia se traza de forma aleatoria (arbitraria) una cuerda. ¿Cuál es la 
probabilidad de que su longitud supere la del lado de un triángulo equilátero inscrito en la circunfe- 
rencia (suceso A)? 


Solución 1. Fijemos una dirección de la cuerda y observermos un diámetro perpendicular a dicha 


r 3r 
dirección (fig. 13). El suceso А ocurre si y solo si la cuerda corta al diámetro entre — y —. 
2 2 
Luego se cumple 
тА) РТ 
РА) = = ===, 
mE) 2 2 


Solución 2. Fijemos un punto final de la cuerda sobre la circunferencia, tracemos la tangente a 
la circunferencia en este punto y dibujemos un triángulo equilátero inscrito en ella con un vértice en 
dicho punto (fig. 14). El suceso A ocurre si y solo si la cuerda cae en el sector angular del ángulo del- 
medio. Luego se cumple р 
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Zy; 


Figura 13 Figura 14 


Solución 3. La longitud de la cuerda se obtiene de forma univoca de la situación del punto medio 
de esta. Si p es la distancia del centro de la circunferencia al punto medio de la cuerda y / designa la 


longitud de la cuerda. entonces se cumple que /=2\/ r!—p? (fig. 15), El suceso A ocurre si у 5610 si 
{> Var (3r=longitud del lado de un triángulo equilátero inscrito en la circunferencia), o sea, si se 


х 
cumple p< —. Luego se cumple 


(2) 

— jr 

ma ^2 ГА 
т 


m(E) r 


P(A) = 


Figura 15 


En el planteamiento del problema no está fijado qué se entiende por el trazado aleatorio de una cuer- 
da. En las soluciones dadas esto fue concebido cada vez de manera diferente. En la solución 1 se partió 
del modelo de la tirada aleatoria de un punto sobre un intervalo de la longitud 2r; en la 2, del lan- 
zamiento aleatorio de un punto sobre un intervalo de la longitud п, y en la 3, de la tirada aleatoria 
de un punto sobre la superficie de un círculo con radio r, entendiéndose cada vez la palabra aleatoria 
tal como se indica en la definición geométrica de probabilidad. Las tres soluciones dadas no son, por 
tanto. soluciones del problema anterior, sino de otros 3 problemas distintos entre sí; el problema mismo 
no es, sin precisión de lo que se entiende por trazado aleatorio de una cuerda, soluble en la forma 
dada. 


2.4 Definición axiomática de probabilidad 


De las reflexiones sobre el efecto de estabilización de la frecuencia relativa extrajimos en 
el epigrafe 2.1 la conclusión de que el grado de indeterminación de la ocurrencia de un 
suceso А, se puede caracterizar de forma objetiva mediante un número, llamado la pro- 
babilidad del suceso A y designado con P(4). En los epígrafes 2.2 y 2.3 hemos dado 
—para el caso en que el experimento aleatorio satisface ciertas propiedades adicionales 
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(que restringen bastante su aplicación) — fórmulas para el cálculo de probabilidades. Una 
fórmula aplicable en todos los casos para el cálculo de probabilidades no existe y no puede 
tampoco existir. Por eso, para la construcción sucesiva del cálculo de probabilidades, que- 
remos tomar por base algunas suposiciones (axiomas) que se traducen en propiedades y 
reglas de cálculo, relativas al concepto de probabilidad y que reconoceremos como válidas 
sin demostración. Aquí partiremos naturalmente de las experiencias acumuladas hasta 
ahora por nosotros, o sea, construiremos el sistema de axiomas del cálculo de probabili- 
dades de las propiedades comunes de la frecuencia relativa y de los conceptos clásico y 
geométrico de probabilidad. 

Para la formulación del sistema de axiomas partiremos de un álgebra de sucesos A. 
Decimos que sobre A está definida una probabilidad P (o una medida de probabilidad), 
si P es una función con las propiedades señaladas en los siguientes axiomas. 


Axioma 1. A todo suceso aleatorio A EA le corresponde de forma unívoca un número 
P (4), la llamada probabilidad de A, y se cumple que 


0< P(4) < 1. 


Con el axioma 1 se establece, por tanto, el dominio de definición y la imagen de la fun- 
ción P; P es una función real definida sobre un álgebra de sucesos con valores entre cero 
y uno. El axioma 1 lleva implícito también que todo suceso aleatorio posee una probabi- 
lidad bien determinada. 


Axioma 2. La.probabilidad del suceso seguro es igual a uno: 
P(Q) =1 (axioma de normación). 


El suceso seguro es siempre, según definición, un elemento del álgebra de sucesos A, es 
decir, un elemento del dominio de definición de la función. El axioma 2 dice que el valor 
de la función P para el argumento © es igual a uno. 


Axioma 3. Dados dos sucesos aleatorios mutuamente excluyentes del álgebra de su- 
cesos considerada, la probabilidad de que ocurra uno de ellos es igual a la suma de las 
probabilidades de estos sucesos: 


AGA, ANQB=G6>P(A UB) =P(A) +P(B) (axioma de adición). 


Observemos al respecto que un álgebra de sucesos al cual pertenezcan los sucesos alea- 
torios A y В contiene también, según definición, a AuB, o sea, que junto con Ау В tam- 
bién AUB pertenece al dominio de definición de la función P. 


Utilizando solamente el axioma 3 se puede demostrar con el principio de inducción 
completa la proposición siguiente: 


Corolario 1. Dados n (n> 2) sucesos aleatorios mutuamente excluyentes dos a dos 
del álgebra de sucesos considerada, la probabilidad de que ocurra uno de ellos es igual 
a la suma de las probabilidades de estos sucesos: 


А,ЄА(/=1,2,...,п), lor ( 5 а) Ўра). 
ADA ФК; i,k=1,2,...,m) = 


Una regla de cálculo correspondiente, para la probabilidad de la suma de un conjunto 
infinito numerable de sucesos aleatorios incompatibles dos a dos, no se puede demostrar 
con el axioma 3; no obstante, subordinamos también al concepto general de probabilidad 
la validez de una regla de cálculo semejante de forma conveniente. 
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Axioma 4, Dado un conjunto infinito numerable de sucesos aleatorios mutuamente ex- 
cluyentes dos a dos del álgebra de sucesos considerada, la probabilidad de que ocurra uno 
de ellos es igual a la suma de las probabilidades de estos sucesos: 


АА (i=1.2....), Lor D л) Ўра). 
АРА = ф (КК 1,2....), ja = 


Advertimos que un álgebra de sucesos a la cual pertenezcan los sucesos A(¡=1,2,...) 
contiene también, según definición, a UJ А,, о sea, al igual que A(j=1,2,...), también 


1=1 
U А, pertenece al dominio de definición de la función P. El concepto álgebra de sucesos 
j=l 
está fijado de tal modo, que todos los sucesos que aparecen en los axiomas y en las pro- 
posiciones del epigrafe 2.5, que se deducen de estos, pertenecen al álgebra de sucesos, es 


decir, al dominio de definición de la función P. 


La propiedad expresada en el axioma 4 se designa como c-aditividad de la medida de probabilidad 
P. Esta conduce a una propiedad de continuidad en el sentido siguiente. 


Teorema 1. Sea (4) una sucesión de sucesos aleatorios А,вА()=1,2....). 


а) Si se cumple 4,<S4,S..., entonces P J A, )-= РА). 
ja 
j=1 = 


0) Si se cumple que 4, 2 А, 2.... entonces pl (С д -im РА). 
j=t 


Jn 


No demostraremos este teorema, pero lo comentaremos un poco. Si (4) es una sucesión de subcon- 
juntos (de un conjunto universo $2), entonces las sucesiones con А, SA,S...y A, 24,2... son conver- 
gentes en el sentido del límite algebraico conjuntista, y se cumple que 


lim =U 4, y lima ГА, 
4=1 J=1 
respectivamente. Luego, las proposiciones contenidas en el teorema significan la validez de 
Р (lim А) =lim P (4). Esto es equivalente a la continuidad de Р. 
Jus 


jor 


Los axiomas 1 hasta 3 proporcionan que se pueden demostrar en el caso en que se apli- 
que la definición clásica de probabilidad (ver 2.2, cololario 1, proposiciones 1 hasta 3). 
Asimismo son válidas proposiciones semejantes para la función Л, que hace corresponder 
а cada suceso aleatorio А єА la frecuencia relativa de la ocurrencia de A en п repeticiones 
realizadas independientes unas de otras del experimento aleatorio observado (ver 2.1, 
corolario 1, proposiciones 1 hasta 3). No formularemos como axiomas para el concepto 
general de probabilidad las otras propiedades comunes establecidas para la frecuencia 
relativa y el concepto clásico de probabilidad, porque ellas se pueden deducir de los 
axiomas 1 hasta 3 (ver 2.5). Tampoco exigiremos que А sea un suceso seguro cuando se 
cumpla que Р(4) =1, ya que esta proposición no es verdadera еп el marco de la definición 
geométrica de probabilidad (ver 2.3). En este contexto introduciremos dos conceptos. 


Definición 1. Si se cumple que P(4) =1 (P(4) =0), entonces se llama al suceso alea- 
torio A(eA) un suceso casi seguro (suceso casi imposible. ) 


A continuación damos las definiciones de dos conceptos frecuentemente utilizados en la 
teoría de probabilidades. 
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Definición 2. Si A es un álgebra de sucesos y P una probabilidad sobre A, entonces 
se llama al par [A, P] una familia de probabilidades. 


A causa de la estrecha relación entre las álgebras de sucesos y los espacios medibles, 
verificada en el epigrafe 1.5, se puede partir también en la introducción axiomática del 
concepto probabilidad de un espacio medida [Q,A]. Entonces se denomina a una función 
P definida sobre la c-álgebra A de subconjuntos del conjunto universo (2, una medida de 
probabilidad, si esta posee las propiedades expresadas en los axiomas 1 hasta 4. 


Definición 3. Si [22,A] es un espacio medible y P una medida de probabilidad sobre 
A, entonces a la terna [2,A,P] se le llama espacio de probabilidad. 


En investigaciones teórico-probabilisticas actuales se parte generalmente de un espacio 
de probabilidad. 


2.5 Leyes de cálculo para probabilidades 


Formularemos y demostraremos en este epígrafe proposiciones para el cálculo con proba- 
bilidades, que resultan directamente de los axiomas del Cálculo de probabilidad y que 
corresponden a las propiedades 4 hasta la 9 del colorario 1 de los epígrafes 2.1 y 2.2. 
Aquí hacemos la abstracción de que existe una familia de probabilidades [A,P], es decir, 
que existe un álgebra de sucesos А sobre la cual está definida una función P que satisface 
los axiomas 1 hasta 4. (Naturalmente podemos partir también de un espacio de probabi- 
lidad [Q,A,P], o sea, de un conjunto universo ©, una c-álgebra de subconjuntos de © y 
de una función P definida sobre A, que posee las propiedades expresadas en los axiomas 
1 hasta 4.) 


Teorema 1. La probabilidad del suceso imposible es igual a cero. 


Р(ф =0. (1) 


Demostración. Se cumple que феО (ver 1.4, corolario 1, proposición 1), o sea, que 
el suceso imposible pertenece al dominio de definición de P. A causa de que ónó=4, se 
cumple, según el axioma 3, que 


PLA) = Рф) +Р(ф) =2Р(ф). 


Сото ф‹ф= ф, se cumple que Р(ф‹0) =Р(ф) y con esto que Р(ф) =2Р(9), de donde se ob- 
tiene (1). 


Teorema 2. Para todo suceso aleatorio АеА se cumple que 
КА) =1—P(A). (2) 


Demostración. Si AeA, entonces se cumple también que АеА (ver 1.4, defini- 
ción 1), es decir, al igual que A, pertenece también A al dominio de definición de P. Aho- 
ra, se cumplen las proposiciones ANA=4 y AUA =Q (ver 1.3 (9)). De los axiomas 3 y 
2 resulta que P(4UA)=P(4) +P(A) y que P(4UA)=1, de donde se obtiene que 
1=P(4) +P(A) y con esto (2). 
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Teorema 3. Para sucesos aleatorios cualesquiera АЕА y ВсА se cumple que 
P(A OB) = Р(А) +P(B) -P(A еВ). (3) 


Demostración. Se cumplen las siguientes ecuaciones: 


AUB=A ABN A) (ver 1.3 (14)). 
AUB=BAANB) | (ver 1.3 (15), 
АВ =(4 В) АВА) АСВ) (ver 1.3 (16)); 


donde los sumandos situados a la derecha son en todos los casos mutuamente excluyentes 
dos a dos (fig. 8). De la aplicación del axioma 3 y del corolario dado a continuación de 
este se obtiene que 


Р(А В) =P(4) +Р(В тА), 
РАВ) = Р(В) + Р(А В), _ 
P(A OB) =Р(А ^B) + P(B oA) +P(A œB). 


Si formamos la diferencia entre la suma de las dos primeras ecuaciones y la tercera ecua- 
ción, se obtiene (3). 


Teorema 4. Si la ocurrencia del suceso aleatorio АеА implica la ocurrencia del su- 
ceso aleatorio BEA (o sea, si se cumple que 4 С В), entonces se cumple que P(4) < P(B). 


Demostración. Se cumple (fig. 16) que 
B=AUV(BNA) con AMBDA)=0. 
Del axioma 3 se obtiene que P(B) =P(A) +PIBNA). Según el axioma 1'se cumple que 


P(BAA)> 0, con lo cual resulta que РВ) > P(4). 


BA Q 


| 557 Figura 16 


Teorema 5. Si el conjunto (4,,4),..., A,,...) es un sistema completo de sucesos alea- 
torios, entonces se cumple que 


Y ма) -1. 


Demostración. Según la premisa se cumple (ver 1.3, definición 6) que 


U 4,=2, 4,04,=0 (¡4k). 


La aplicación del corolario dado a continuación del axioma 3 o la aplicación del axio- 
ma 4, proporciona, bajo la consideración del axioma 2, la proposición de este teorema. 
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3. Probabilidad condicionada 


Introduciremos en este capítulo el concepto probabilidad condicionada (epígrafe 3.1) y ob- 
tendremos de esto una fórmula para el cálculo de la probabilidad del producto de sucesos 
aleatorios (teorema de la multiplicación, epigrafe 3.2). Sobre esta base trataremos en el 
epigrafe 3.3 el concepto independencia de sucesos aleatorios, extraordinariamente impor- 
tante para todo el Cálculo de probabilidades. Por último, estudiaremos dos fórmulas útiles 
para numerosas interrogantes prácticas, la fórmula de la probabilidad total (epigrafe 3.4) 
y la fórmula de Bayes (epigrafe 3.5). En cada ocasión consideraremos un ejemplo en el 
cual esté presente una situación típica para la aplicación de estas fórmulas. 


3.1 Definición de probabilidad condicionada 


Partiremos de un experimento aleatorio que nos imaginamos descrito matemáticamente 
por una familia de probabilidades [А, Р], es decir, por un álgebra de sucesos А y una pro- 
babilidad P definida sobre ella. El número P(A) indica, por tanto, la probabilidad de la 
ocurrencia del suceso АЕА en el marco de las condiciones que caracterizan al experimen- 
to aleatorio observado. Añadamos aún mentalmente a estas condiciones la de que el su- 
ceso aleatorio BeA ocurre y entonces el grado de indeterminación de la ocurrencia del 
suceso А se describirá, por lo general, mediante un número distinto de P(A). 


Designaremos posteriormente este número con Р(А|В) y lo llamaremos probabilidad 
(condicionada) de A bajo la condición B. La definición matemática de probabilidad (con- 
dicionada) de A bajo la condición B queremos hacerla de modo que se corresponda con 
las ideas relativas al contenido de este concepto, explicadas anteriormente. Para ello 
realizaremos algunas reflexiones previas con respecto a la frecuencia relativa y al concep- 
to clásico de probabilidad. 


Si en n repeticiones realizadas independientemente unas de otras del experimento alea- 
torio observado se presenta m veces el suceso B y Í veces el suceso 4 NB, entonces se cum- 
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ple para la frecuencia relativa лав) de la ocurrencia de A еп los т experimentos еп los 
cuales B ocurre, la relación 


J, (40B) 
Ja (B) 


5.4 
I n 
f, (A|B) == — = (1) 
ee 


n 
Si el experimento aleatorio observado posee (< œ) resultados y estos son igualmente po- 


sibles, entonces se cumple para la probabilidad P(A|B) del suceso A bajo la condición de 
que el suceso B ocurra, según la definición clásica, la relación 


АПВ) 
P(a|B) _ 34 nB) A k _PANB) 2 
(B) 8B) P(B) 
k 


denotando g(C), como antes, el número de los resultados que provocan la presencia del 
suceso C. 


Las relaciones (1) y (2) son la base para la siguiente definición general de probabilidad 
condicionada. 


Definición 1. Sea A un álgebra de sucesos, P una probabilidad sobre A y BEA un 
suceso aleatorio de probabilidad positiva (P(B) >0). Entonces se llama a 


(АСВ) 
P(B) 


P(A|B) =P (3) 


la probabilidad (condicionada) del suceso ASA bajo la condición (o también bajo іа hipó- 
tesis) B o abreviadamente la probabilidad condicionada de A respecto a B (fig. 17). 


Figura 17 


Ejemplo. Un sistema se compone de tres máquinas 1, Пу Ш dispuestas en serie; el 
sistema faila si y solo si lo hace una de las máquinas, suponiendo que dos máquinas cua- 
lesquiera no pueden fallar al mismo tiempo. La probabilidad de que, en caso de desper- 
fecto del sistema, la causa radique en la máquina I sea igual a р(0< p< 1); рага la má- 
quina Il, igual a q(q> 0, р+9< 1) y para la máquina Ш, igual a 1 —(p+q) (fig. 18). 
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i-p Figura 18 


Supongamos ahora que el sistema de máquinas no funciona y que se ha buscado en vano 
un defecto en la máquina I. Calculemos la probabilidad de que la causa del desperfecto 
radique en la máquina II. Para ello introduzcamos los sucesos siguientes: 


A... La causa del desperfecto radica en la máquina II. 
„В... La causa del desperfecto no radica еп la máquina I. 


(А ^B) 


Luego hay que determinar P(4|B). Según (3) se tiene que P(4|B) =P Ahora, 


se cumple que АСВ y, por consiguiente, АПВ=А. Con esto 


A 
Paja) =EL, 
P(B) 
Con P(4) =q y P(B) =1-Р(В) =1-р (fig. 18), obtenemos 
P(A] B) = ——. 
1-p 


Indicamos algunas inferencias directas de (3), que fundamentan más ampliamente la 
conveniencia de la definición 1. 


Corolario 1. Sia la ocurrencia del suceso aleatorio BeA, P(B) >0, está siempre uni- 
da la ocurrencia del suceso aleatorio 4єА (BS A), entonces se cumple P(A|B) =1. 


Corolario 2. Si АєА y BeA son sucesos aleatorios mutuamente excluyentes 
(ANB=0) y se cumple que P(B) >0, entonces se tiene que P(A|B) =0. 


La probabilidad condicionada P(A|B) de A con respecto a B, puede ser menor, mayor 
y también igual a la probabilidad (incondicionada) P(4). (Nos ocuparemos más detalla- 
damente en el epígrafe 3.3 con el caso de la igualdad.) 


Ejemplo. Tirada de un dado. 
B... El número obtenido es par (+) = < 5 > ) 7 


a) A... El número obtenido no es mayor que 3: 
3 1 1 
(ғи =—-—) P(A|B) =—-<P(4). 
6 2 3 
b) A...El número obtenido es igual a 2, 3 о 4: 
3 1 2 
(ra Б 1-2) PalB) = => РА). 
6 2 3 
с) A...El número obtenido es igual a 1 о 2: 
2251 1 
(мот) рва. 
6 3 3 
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Llamamos también la atención de que la probabilidad condicionada Р(А|В) де 4 соп 
respecto а В se debe diferenciar exactamente de la probabilidad condicionada PB|A) de 
В con respecto а А y también de la probabilidad P(A ^B) de la ocurrencia simultánea de 
los sucesos A y B. 


Ejemplo. Tirada de un dado. 

A... El número obtenido al tirar el dado no es mayor que 4. 

В... El número obtenido al tirar el dado es igual a 3, 5 o 6. 
4 2 3 


1 
P(A) = —=—-, РВ) ===, 
6 3 6 2 


1 1 1 
PlANB) = —, Р(А|В) =—, P(B|A) =—. 
6 3 4 


La correspondencia 
A = P(A|B), АєА (4) 


es una función definida sobre el álgebra de sucesos A para un suceso fijo ВєА de proba- 
bilidad positiva P(B) >0. Designemos esta función con P,; se cumple por tanto que 


P(ANB) 


РИА) =Р(А|В) = 
P(B) 


El siguiente teorema, cuya demostración recomendamos mucho al lector, contiene pro- 
piedades esenciales de la función P,. 


Teorema 1. Sea [A,P] una familia de probabilidades y Be A un suceso aleatorio de 
probabilidad positiva. La función P, definida por (4) posee todas las propiedades que se 
expresan en los axiomas 1 hasta 4 (epigrafe 2.4), es decir, [A,P,] es también una familia 
de probabilidades. 


La probabilidad condicionada P, posee también, a causa de la validez del teorema 1, 
todas las propiedades que fueron demostradas para la probabilidad (incondicionada) P 
(ver 2.5, teoremas 1 hasta 5). 

Por último, advertimos que se puede interpretar la probabilidad (incondicionada) como 
probabilidad condicionada con respecto al suceso seguro; se cumple para todo suceso 
aleatorio A€A que 


Q 
Paja РО AA A ру (5) 
P(Q) 1 


3.2 Teorema de la multiplicación para probabilidades 


Trataremos en este capítulo el cálculo de la probabilidad del producto de dos sucesos“alea- 
torios A y B. Para ello supongamos que A y B poseen probabilidades positivas. (En caso 
contrario se cumple, en virtud de ANBSA y АПВ Е В, la relación Р(А ^B) =0 (ver 2.5, 
teorema 4), de modo que entonces toda investigación ulterior es innecesaria). La proba- 
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bilidad: P(A ^B) se presentó en el epígrafe 3.1 en la definición de la probabilidad condi- 
cionada. Despejando la ecuación (3) de 3.1 obtenemos la proposición sigutente: 


Teorema 1.(Teorema de la multiplicación) 
Sean A y B sucesos aleatorios con probabilidades positivas. Entonces se cumple que 


Р(А ^B) =P(A|B) P(B) =Р(В| A) P(A). (1) 


La probabilidad del producto de dos sucesos aleatorios con probabilidades positivas es, 
por tanto, igual a la probabilidad condicionada de un suceso respecto al otro por la pro- 
babilidad (incondicionada) del otro. 

De (1) sè obtiene directamente la siguiente relación, que necesitaremos más tarde: 


Р(А|В) _ РВ] А) 
P(A) P(B) 
La aplicación de la fórmula (1) para el cálculo de la probabilidad de la ocurrencia co- 
mún de dos sucesos presupone, en particular el conocimiento de una de las probabilidades 
condicionadas que aparecen en (1). En problemas concretos es posible obtener frecuente- 


mente probabilidades condicionadas mediante reflexiones que se basan en la interpreta- 
ción del contenido del concepto probabilidad condicionada. 


(2) 


Ejemplo. En una cajita se encuentran 10 fusibles, entre los cuales hay 4 defectuosos. 
Se extraen sucesivamente dos fusibles, no reponiéndose el fusible tomado al inicio antes 
de haber extraido el segundo y teniendo cada fusible la misma posibilidad de ser tomado; 
calculemos la probabilidad de que los fusibles extraidos estén en buenas condiciones (su- 
ceso A). Para ello introduciremos los sucesos siguientes: 


A, ... El fusible tomado en la extracción número Г está en buenas condiciones (i=1,2). 


Entonces se cumple que A=4, ^4, y, por tanto, que Р(4) =P(4,N4)). Utilizaremos para 
el cálculo de esta probabilidad la fórmula (1) en la forma 


БА, СА.) =PA)PA)A). 


Se cumple, utilizando la definición clásica de probabilidad, que 
6 3 5 
РА) =—=—, РАДА) =— 
10 5 9 
Con esto 
3 5 1 
РА) =— : —=—. 
53794.03 


(Se puede obtener también este resultado directamente por medio de la definición clásica 
de probabilidad: 


ОЕ 1 
(№) 1.2 10.9 3 


A continuación indicamos una fórmula para el cálculo de la probabilidad de un pro- 
ducto de n(> 2) sucesos aleatorios. 
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Teorema 2. Sean A,, А,,..., А, sucesos aleatorios con 
Р(А OA... A, 1) >0. 
Entonces se cumple que 
PA, СА, С... NA) =Р(А,) PAJA) -PA|A СА, С... DA). 3) 


Dejamos al lector la demostración de esta proposición; esta se debe realizar sobre la 
base del teorema 1 con ayuda del principio de inducción completa. 


3.3 Independencia de sucesos aleatorios 


Sean A y B sucesos aleatorios con probabilidades positivas. En el tratamiento de la pro- 
babilidad condicionada hemos advertido que esta puede ser también igual a la probabili- 
dad (incondicionada) (P(4|B) =P(A4)). La adición de la condición el suceso В ocurre а las 
condiciones que caracterizan al experimento aleatorio observado, no tiene en este caso in- 
fluencia sobre la probabilidad del suceso A, o sea, el suceso А es en este sentido indepen- 
diente del suceso B. Ahora, se infiere de P(A|B) =P(A) la relación P(B|A) =P(B) 
(ver 3.1 (2)), es decir, si A es independiente de B en el sentido anterior, entonces B es 
también, en el mismo sentido, independiente de A y se cumple que Р(4 NB) =P(A) - РВ). 
(ver 3.1, teorema 1). Utilizaremos esta relación para la definición matemática de la in- 
dependencia de dos sucesos aleatorios. 


Definición 1. Dos sucesos aleatorios A y B se llaman independientes (uno de otro) 
(también: estocásticamente independientes), si se cumple que 


Р(А В) =Р(А) - P(B), (1) 


о sea, si la probabilidad del producto de los sucesos es igual al producto de las probabi- 
lidades de dichos sucesos. 


Observación. En esta definición no hemos prestado atención a la limitación, dada 
desde un inicio, de que A y B posean probabilidades positivas. Dos sucesos aleatorios, de 
los cuales uno por lo menos posee la probabilidad cero, se pueden concebir como inde- 
pendientes uno de otro según la definición 1, ya que siempre se satisface (1). 


Los conceptos mutuamente excluyentes e independientes se deben diferenciar rigurosamente. La ex- 
clusión mutua de dos sucesos A у В significa que 4 ^В = ф, y por tanto se cumple que Р(4 ^B) =0. Por 
el contrario, la independencia significa que Р(А ^B) =P(A) - P(B). Por consiguiente, dos sucesos mutua- 
mente excluyentes de probabilidad positiva no son independientes uno de otro. 


Corolario 1. Si los sucesos А у В son independientes uno de otro, entonces también 


lo son los sucesos 4 y B, A y B, y también los sucesos 4 y B. 


Demostración. Es suficiente demostrar que de la independencia de A y B resulta la 
de A y B; lo restante se aclara con esto. Sean por tanto A y B independientes, es decir, 
sea P(A ^B) =Р(А) - P(B). De B=(4NB) (АВ) y de (40B) MANB) = ф resulta, según 
el axioma 3, la relación P(B) = Р(А ^B) +P(ANB); con Р(А ПВ) =P(4) - РВ) obtenemos 
de esto 


РЯ св) =P(B) —P(A) P(B) =(1 —P(4)) P(B) =P(A) · P(B), o sea, А у В son inde- 
pendientes uno de otro. 
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El ejemplo siguiente debe ilustrar no solo el concepto independencia de dos sucesos, 
sino también preparar la ampliación de la definición de independencia al caso de más de 
dos sucesos. 


Ejemplo. Tiremos dos dados una vez —imaginemos los dados numerados— y obser- 
vemos los sucesos siguientes: 

A ... El número obtenido con el dado 1 es impar. 

B ... El número obtenido con el dado 2 es par. 

С... Los números obtenidos son ambos pares o impares. 
Supongamos que los 36 resultados posibles del lanzamiento de dos dados son igualmente 
probables. Entonces obtenemos (mediante la definición clásica de probabilidad) que 


P(A) =P(B) РС) = №1 
36 2 
9 1 
PANB) =Р(А ^C) =ABNC) = РЕ 


Los sucesos A, В у С son, рог tanto, independientes dos a dos, Sin embargo, se cumple 
por ejemplo que P(C|A В) =04P(C), es decir, el suceso С no es independiente del suceso 
АВ. Por consiguiente, по designaremos a los sucesos A, Ву С como completamente in- 
dependientes unos de otros. 


Definición 2. Los sucesos aleatorios A, A),...,A, se llaman completamente indepen- 
dientes (entre sí), si para todo número natural k< п y para números naturales cualesquie- 
тай...) con 1< i <... << n se cumple la relación 


PA, 0... A A) =P4,)... PA). 0) 


Los sucesos aleatorios A,,4,....,A,,... de una sucesión infinita se Патап completamente in- 
dependientes si para todo número natural п los sucesos А, A,,...,A, son completamente 
independientes. 


Corolario 2. Si los sucesos A,, 4,...,4, son completamente independientes, entonces 
son también independientes dos a dos. 


Esta proposición se obtiene directamente de la definición 2. Como muestra el ejemplo 
anterior, el recíproco es falso, es decir, de la independencia mutua (dos a dos) по resulta 
la independencia completa. 


Para finalizar este epígrafe, queremos indicar un teorema que proporciona ideas interesantes sobre 
las familias de probabilidades y sobre el concepto independencia. 


Teorema 1. (Lema de Borel-Cantelli) 
Sea [A,P] una familia de probabilidades y (4,),. y una sucesión de sucesos aleatorios A, <A. Con 4 
denotamos al suceso aleatorio que tiene lugar si y solo si ocurre un número infinito de sucesos de la 
sucesión (4,)„„ м. 


a) Si se cumple que У Р(А,) < vo, entonces P(A,) =0, o sea, а lo sumo un número finito de su- 


nal 
cesos de la sucesión (4,),, y ocurre con probabilidad 1. 


b) Si se cumple que У na, =æ у los sucesos A,,4,,... son independientes dos a dos, entonces se 
=0 


cumple que А.) =1. 
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Este teorema, que no queremos demostrar, desempeña una función importante en la demostración de 
las leyes fuertes de los grandes números. Sin embargo, queremos fundamentar por lo menos que la pro- 
posición de este teorema es razonable, o sea, que se cumple A,,cA. Esto resulta en virtud de las pro- 
piedades de un álgebra de sucesos (ver 1.4, definición 1 y corolario 1) sobre la base de la relación 


A, = N U Ap (Si Ap Az... son subconjuntos de un conjunto universo 6, entonces 


я=0 kon 


А: 
п=0 kan 


es el llamado límite superior de іа sucesión (A,), y: se cumple que хє A, si y solo si x es elemento 
de un número infinito de subconjuntos А,.) 


3.4 Fórmula de la probabilidad total 


La fórmula de la probabilidad total sirve para el cálculo de la probabilidad Р(В) de un 
suceso aleatorio B a partir de las probabilidades P(4) de un sistema completo 
Í4,. A,...,A,) de sucesos A, (ver 1.3, definición 6) y de las probabilidades condicio- 
nadas Р(В|А) del suceso В con respecto а A(i=1, 2,..., п). 


Teorema 1. (Fórmula de la probabilidad total) 
Sea [A,P] una familia de probabilidades y Д A) un conjunto de sucesos aleato- 
rios A €A mutuamente excluyentes dos a dos у con probabilidades positivas (¿=1, 2,...,n), 
cuya suma es el suceso seguro. Entonces se cumple para todo suceso aleatorio BeA que 


PB) =D, PB|A) PA). o 
i=} 

Observación. La fórmula (1) se llama fórmula de la probabilidad total o también completa por- 
que con ella se puede calcular la probabilidad (incondicionada) de un suceso B a partir de sus pro- 
babilidades condicionadas, que en este contexto se designa como probabilidad total o completa 
(fig. 19). 


Figura 19 


Demostración. En virtud de las condiciones impuestas a los sucesos А, Ap ...,4,, 
el suceso B ocurre al menos con uno de estos sucesos. Luego, el suceso B puede represen- 
tarse como suma de n sucesos mutuamente excluyentes dos a dos BOA, i=1, 2,..., и 


(Пе. 19). 


В= “2 (BoA). 
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De aqui resulta (ver 2.4, corolario 1) 
P(B) = > PIBOA). 
l 


La aplicación del teorema de la multiplicación proporciona por último (ver 3.2, teore- 
ma 1) 


PB) = Ў, PEA) P(A, 


o sea, se cumple (1). 


Ejemplo. Observemos un modelo sencillo de un sistema de trasmisión de noticias, con- 
sistente en una fuente de noticias, un canal interferido y un receptor (fig. 20). La fúente 
envía exactamente una de las señales x,, x,,..., х,; esta se trasmite por el canal y se con- 
vierte en una de las señales у, у»... Y, que a su vez, se recibe por el receptor. Descri- 
bamos la fuente mediante las probabilidades р, > 0 de la ocurrencia de las señales х, (¡=1, 
2,..., п), y el canal interferido, por las probabilidades p, de la transición de la señal x, 
en la seña: у, (i=1, 2,..., м; f=1, 2,..., т). Nos interesamos por las probabilidades q, de 
la ocurrencia de las señales у,\/=1, 2,..., т) en el receptor. 


Fuente Canal interferido Receptor 


(x) (x - y) (у) 


Figura 20 


Introducimos los sucesos siguientes: 


A, ... La fuente envía la señal x, (i=1, 2,..., п). 
B, ... El receptor recibe la señal y, (¡=1, 2,.... т). 


Entonces se cumple que 4/04,=9(i4k), A, VAL... VA, =Q. Además, se dan los números 
p = ВА) mayores que O(i=1, 2,..., п), y también los números р,=Р(ВЈА) (i=1, 2,...,п; 
ј=1, 2,... т). Рага а, =Р(В) obtenemos con esto, sobre la base de la fórmula de la pro- 
babilidad total, 


P(B) =>, РВ] А) P(A), por tanto = У, р,рў=1, 2,..., т). 
1=1 і=1 


Reunamos los números р,,р,...,р, еп una matriz р de una fila y los números p,,,...,P, ег 
una matriz P. Entonces se cumple para la matriz q de una sola fila, formada por los nú 
meros 4, 9»....9» la relación q=pP, entendiéndose la multiplicación que se encuentr. 
en el miembro derecho de esta ecuación como multiplicación de dos matrices. 


Ejemplo numérico. n=m=3, р=(0,5; 0,3; 0,2) 


0,7 0,2 0,1 
Р= | 0,3 0,5 0,2 
0,3 0 0,7 


(Por ejemplo, la señal x, se convierte en y, con la probabilidad 0,3 y еп у,, con la рг 
babilidad 0,7). Con esto se obtiene q =pP=(0,5; 0,25; 0,25). 


4% 


3.5 Fórmula de Bayes 


La fórmula de Bayes sirve para el cálculo de las probabilidades condicionadas Р(4 ДВ) де 
los sucesos А, de un sistema completo {А A, ..., A,) de sucesos con respecto a un suceso 
В de probabilidad positiva (k=1, 2,..., п), a partir de las probabilidades P(4) y de las 
probabilidades condicionadas PBÍA) (i=1, 2,..., п). 


Teorema 1. (Fórmula de Bayes). Sea [A,P] una familia de probabilidades, {4,, As 
A) un conjunto de sucesos aleatorios AEA, mutuamente excluyentes dos a dos y con pro- 
babilidades positivas (i=1, 2,..., м), cuya suma es el suceso seguro, y BeA, un suceso 
aleatorio con probabilidad positiva. Entonces se cumple que 


PBA) PA) 


> PB|A) P (4) 
i=l 


Р(А В) = (k=1, Liens п) (1) 


Demostración. Se cumple (ver 3.2 (2))que 


РАВ) Р(В|а,) 


(k=1, 2,..., n). 
P(A) P(B) 
De aqui resulta 
pqa, в) = 81402), (k=1, 2,..., п). 
P(B) 


Como las condiciones para la aplicación de la fórmula de la probabilidad total se satis- 
facen (ver 3.4, teorema 1), obtenemos con esto 


РВ] А) PA) 


Р(А |В) = (k=1, 2,...,п), 


Y Peja Pa 
í=1 
o sea, se cumple (1). 

Ejemplo. Continuamos con el ejemplo del epigrafe 3.4 y nos interesamos ahora por 
la probabilidad r, de que-la señal x, haya sido la enviada una vez que se ha recibido ya 
la señal y, Con las notaciones anteriores se tiene que r,=P(A,|B). Por medio de la fór- 
mula de Bayes obtenemos 


РВ] АРА) рыр, 
АВ) q; 
(k=1, Ba n; j=1, 2,....т), 


r,=P(A,|B) = 


donde los números q, están dados por a, Р,РО=1,2,....т). 
1=1 
Ejemplo numérico. Utilicemos los datos del ejemplo numérico del epígrafe 3.4 y ob- 
tenemos 


0,70 0,18 0,12 


=| 0,40 0,60 0 
0,20 0,24 0,56 


is 
k=1,2,3 
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PaP: _ 0,2 :0,3 


(Por ejemplo, se cumple que r,,= =0,24, es decir, la probabilidad de 


q » 
que la señal х, haya sido enviada cuando se recibió la señal y, es de 0,24.) 


Queremos fundamentar un poco la significación de la fórmula de Bayes. Para ello po- 
demos partir de la consideración de un experimento aleatorio en el cual, en cada opor- 
tunidad, ocurre exactamente uno de los sucesos aleatorios A,, Ap... A, Imaginemos que 
no es posible una observación directa del experimento con respecto a la ocurrencia de los 
sucesos A, Ap... А„ pero que las probabilidades de estos sucesos son conocidas o que 
existen valores estimados para ellas. (En esta relación se denominan también las proba- 
bilidades P(4) (i=1, 2,..., п) como probabilidades a priori.) Si se puede observar ahora 
la ocurrencia del suceso B en la realización del experimento, se procura utilizar esta in- 
formación en la toma de la decisión sobre cuál de los sucesos А,, A»... 4, ocurre en el 
experimento, Para ello se calcularán las probabilidades condicionadas P(A „| В) де los su- 
cesos A,(k=1, 2,..., п) con respecto а В según la fórmula de Bayes. (En este contexto se 
denominan también las probabilidades P(4 ЦВ) (k=1, 2,..., п) como probabilidades a pos- 
teriori.) 

Una regla de decisión posible y muy clara consiste en que ante la presencia del suceso 
B se considere como ocurrido aquel de los sucesos A,(k=1, 2,..., n) que tiene la mayor 
probabilidad bajo la hipótesis de que el suceso B ocurre; por tanto, se elige entre los su- 
cesos 4(К=1, 2,..., п) aquel que, dando por sentado а В, tiene mayor probabilidad. Na- 
turalmente, esta decisión no está excenta de error, pero se puede indicar la probabilidad 
de una decisión falsa. Sobre este principio de decisión se basan muchas reflexiones, par- 
ticularmente de la Estadística matemática; el principio se debe a un clérigo inglés, Tho- 
mas Bayes (fallecido en 1763), pero fue solo conocido y aplicable después de una nueva 
formulación hecha por P.S. Laplace. 


Ejemplo. Si aplicamos el principio de decisión descrito al modelo considerado de un 
sistema de trasmisión de noticias, esto significa que ante la recepción de la señal y, con- 
sideramos como enviada aquella señal x, para la cual la probabilidad r, es el máximo del 
conjunto de los números ғ, (k=1, 2,..., п), es decir, que tiene la mayor ¡.robabilidad de 
haber sido enviada. Para el ejemplo numérico esto significa, que ante la recepción де las 
señales у» y, y y, se decidió por x,, x, y xX, respectivamente. (Estas tres decisiones están 
provistas de errores; la probabilidad de una decisión falsa аѕсіепде а 0,3 para la deduc- 
ción de y, ах, 0,4 para la de y, ах, y a 0,44 para la de y, ё x,.) 
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4, Variables aleatorias discretas 


El concepto variable aleatoria tiene una significación central en la Teoría de probabilida- 
des y sus aplicaciones. Por medio de variables aleatorias se describen numéricamente al- 
gunas características de los fenómenos aleatorios. Así se describe, por ejemplo, el número 
de artículos defectuosos en una muestra aleatoria de la producción diaria de una fábrica, 
el número de partículas emitidas por una sustancia radiactiva en un tiempo determinado, 
la duración de un bombillo o el resultado de un proceso de medición cualquiera en la téc- 
nica. Frecuentemente la realización de un experimento aleatorio sirve para emitir un va- 
lor numérico de una variable aleatoria. En la naturaleza del fenómeno radica el que se 
puedan observar distintos valores de las variables aleatorias en repeticiones del experi- 
mento aleatorio. Para la caracterización teórico-probabilística de una variable aleatoria, 
no es suficiente la indicación del conjunto de los valores imaginables; son mucho más ne- 
cesarias las probabilidades de aquellos sucesos aleatorios que están en relación con la va- 
riable aleatoria considerada, por ejemplo, las probabilidades con las cuales la variable 
aleatoria acepta determinados valores o valores de determinados intervalos. 


En este capítulo queremos trabajar con las llamadas variables aleatorias discretas, cuya 
característica común consiste en que pueden aceptar un número finito o infinito numera- 
ble de valores; en el capítulo 5 nos ocuparemos de las llamadas variables aleatorias con- 
tinuas, cuyos valores imaginables cubren un intervalo, 

A estas consideraciones queremos anteponer la definición general de variable aleatoria, 
que requiere del concepto espacio de probabilidad, y la definición de función de distribu- 
ción de una variable aleatoria. 


4.1 Definición general de variable aleatoria 


Los epigrafes siguientes contienen muchos ejemplos y motivaciones para los conceptos que 
se introducen aquí de forma general, de modo que se obtendrá pronto una cierta familia- 
rización con estos conceptos. 


Definición 1.Sea [Q,A,P] un espacio de probabilidad. Una función real X definida 
sobre Q (оє0 > X(a) e R) se Пата una variable aleatoria (sobrel2,A,P)), si para todo 
número real x se cumple que 


[me2:X(0) <x)eA. 


Para evitar falsos entendimientos que pudieran resultar de la denomináción variable 
aleatoria llamamos la atención expresamente de que una variable aleatoria X (sobre un es- 
pacio de probabilidad [Q, A,P]) es una función, es decir, que indicando la variable inde- 
pendiente о (eS) está fijado univocamente el valor Х(о) (є R) de la variable aleatoria X. 
La aleatoriedad radica solo en la elección de la variable independiente well y esta elec- 
ción se realiza según la medida de probabilidad P. 

Queremos ahora seguir explicando la definición 1. Para ello escribiremos abreviada- 
mente en lugar de (0є0: Х(о) <x} solo (X<x), de forma correspondiente, en lugar de 
{оеЯ:а< X<b) y (оє0: (о) =c} escribiremos (a< X<b) y (X=c), respectivamente. La 
definición 1 dice entonces que, para una variable aleatoria Х, cada uno de los conjuntos 
(X<x), хе В, pertenece a la o-álgebra A de los subconjuntos del conjunto Я, es decir, 
que cada uno de estos conjuntos pertenece al dominio de definición de P. (De aqui se ob- 
tiene fácilmente que también cada uno de los conjuntos (a< Х <b) y (Х=с) pertenece tam- 
bién al dominio de definición de P.) Por esto es razonable hablar de la probabilidad de 


que una variable aleatoria X acepte un valor menor que х(хє В). Para esta probabilidad, 
o sea, para Р(оеЯ: (©) <x)) escribimos abreviadamente P(X <x). 


Definición 2.Sea [9,А,Р] un espacio de probabilidad y X una variable aleatoria so- 
bre [9,А,Р]. La función F, definida por 
FAx) =P(X<x), хе R (1) 
se llama función de distribución de la variable aleatoria X. 
El valor de la función de distribución F, de una variable aleatoria X en el lugar x es, 


por tanto, según definición, igual a la probabilidad de que la variable aleatoria Y acepte 
un valor que sea menor que x. 


Por medio de la función de distribución de una variable aleatoria se pueden expresar 
las probabilidades de casi todos los sucesos aleatorios que están en relacicn con esta va- 
riable aleatoria. Así se cumple, por ejemplo, que 

Ра< X <b) =F 4b) -F4a) ; (2) 
dejamos al lector la demostración de esta propiedad. 


Sobre la base de los axiomas de la Teoría de probabilidades se pueden demostrar las 
propiedades de una función de distribución F, enumeradas en el teorema siguiente. 


Teorema 1. Sea F la función de distribución de una variable aleatoria. Entonces se 
cumple: 


1. Para todo хе R, 0 < Ех) < 1 

2. F es monótona creciente (х, <x, >F(x,) < F(x). 
3. F es continua por la izquierda (lim FG) =Е(х,)). 
4. lim ЕО) =0, lim FO) = 1. 


X= a 
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Demostración. Consideremos que Y designa una variable aleatoria con la función de distribución 
Е. 

1. Como F(x) indica la probabilidad de un suceso aleatorio, se cumple que 0< F(x) < 1 (ver 2.4, 
axioma 1). 4 

2. De x, <x, resulta (X<x,) Е (Х<х,) y de aquí (ver 2.5, teorema 4) P(X<x,) < PIX <x,) es decir. 
Ко) < Fx). 

3. Si (x,) es una sucesión monótona creciente de números reales x, <a con lim x,=a. entonces se 


cumple que (Х<х,) = (X<x,. 1) y U (X<x,) = <a). De aquí resulta (ver 2.4. teorema 1) que 
n=l 
P (X <a) =lim (Х<х,). o sea, F(a) =lim F(x,). con lo cual está demostrada la continuidad por la iz- 


quierda de F. 


4. La existencia de los límites señalados resulta de la monotonía y del acotamiento de F (proposicio- 
nes 1 y 2); además, se cumple evidentemente que 0< lim F(x) < lim F(x) < 1. Por tanto, es suficien- 
X=- хе + 


te demostrar que se cumple lim F(—n) =0 у lim Еи) =1, recorriendo п el conjunto de los números 
Rm п- = 


naturales. Рага ello consideremos los sucesos mutuamente excluyentes dos a dos 4,=0-1< Хз). 
(¡=0,+1,+2,...). Entonces зе cumple (ver 2.4, axiomas 2 y 4) que 


1 =Р(®) =Р J a) -> P(A) =lim > P(A). 


IEA j= =% =-п+1 


En virtud de (2) se cumple que 
P(A) =P(j-1< X<) =) -FG-1) 


y, por consiguiente, 


lim P(A) =lim > (ZO —-FG-D) =lim (Ем) -Е(-—п)). 
j=—n+1 j=-n+1 2 


Luego, se cumple en total que lim F(n) -lim F(—n) =1. 


A = п 
Сото la diferencia de dos números situados entre cero у uno puede tener el valor uno, solo si el ті- 
nuendo es igual a uno y el sustraendo igual a cero, resulta de aquí que 


lim Ел) =1 y tim F(—n) =0, 


Mo n 
con lo cual todo está demostrado. Además podemos afirmar que la propiedad 1 resulta directamente 
de las propiedades 2 y 4. 


Observación. Las propiedades indicadas en el teorema 1 son características en el sentido de que, 


para cada función F que tenga estas propiedades existe una variable aleatoria X, cuya función de dis- 
tribución Fy coincide con la función F. 


Por último, queremos señalar la validez de la ecuación 
Р(Х=с) =F 4c+0) FAO) ; (3) 


aquí designa F (c+0) el límite por la derecha de la función de distribución F, de la va- 
riable aleatoria X en el punto c. Por tanto, si c es un punto de continuidad de la función 
de distribución de X, entonces X acepta el valor c con la probabilidad cero, o sea, el su- 
ceso (X=c) es un suceso casi imposible. 

Con (3) se comprueba la validez de las ecuaciones siguientes: 


Pla<X<b) =F Ab) —F4a+0), (4) 
Pla<Xs Б) =F 4b+0) -Fa +0), (5) 
Ра< X< b) =Е4Ь+0) Еа), (6) 
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que en unión соп (1) muestran cómo se calcula, mediante la función de distribución F, 
la probabilidad de que la variable aleatoria X acepte un valor de un intervalo arbitrario 
dado. 

Ahora queremos tratar brevemente las funciones de variables aleatorias. Primero nos 
ocuparemos de la igualdad de variables aleatorias. Las variables aleatorias son funciones 
y, por tanto, ya está definida en principio la igualdad de dos de ellas. En la Teoría de 
probabilidades es conveniente y usual definir un concepto igualdad un poco más general, 
el cual considere la particularidad del dominio de definición común (conjunto universo de 
un espacio de probabilidad) de una forma adecuada. 


Definición 3: Dos variables aleatorias Ху Y definidas sobre un espacio de proba- 
bilidad común [Q,A,P] se denominan iguales (simbólicamente: X= Y), si se cumple que 


Ploe: Х(о) = Y(0))) =1, (7) 
о sea, si el suceso (X= Y) es casi seguro. 


Teorema 2. Sea [9,А, Р] un espacio de probabilidad, X una variable aleatoria (sobre 
[©, А,Р]) y g una función real continua definida sobre el eje real. Entonces la función 
8(Х) definida por 

[200 lo) =g(X(0)), vel (8) 


es también una variable aleatoria (sobre [Q,A, Р]). 

Renunciaremos a la demostración de este teorema; pero queremos expresar aún, para 
algunas funciones especiales g, la función de distribución de У=2(Х) mediante la función 
de distribución de X. 


Teorema 3. Sea X una variable aleatoria con la función de distribución F, 


1. Para У=аХ+Ь (ая 0 real, b real) se cumple que 


-b 
F Ax) =F; € ) para a>0, (9) 
a 
x—b 
FAx) =1-F, ( +0) рага а <0. (10) 
а 
2. Рага У=Х? se cumple que 
0 para x< 0, 
Fx) -{ E i 
F, (dx) -FA-Vx+0) рага x>0. (11) 
3. Para Y=|x] se cumple que 
0: рага х< 0, 
Ех) = f 
F Ax) —F (—x-+0) para x>0. (12) 


Demostración. Se emplean las ecuaciones (1) hasta (6). 
1. Sea a>0. Entonces se cumple que 
Рух) =AY <x) =P(aX +b <à) 


=P (x< = )- (2 ). 
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o sea. (9). En el caso de que а <0 se obtiene que 


x-b x—b 
Fx) =PlaX=b<x)=P| X>—— J=1-PU( X< 
a a 


x—b 
}-- =) 
а 


2. Para x< 0 se cumple que Ех) =P(X?<x) =0. Para х>0 se obtiene que 
Fx) ЕР? <х) =РИХ eVo 


=P(-\x<X<\x) =F ANO) -F,(-\x+0), 


o sea; (10). 


о sea, (11). 
3. Para x< 0 se cumple que Рух) =P x| x =0. Para x>0 se obtiene que 


Fx) =P X|<x) =P(-x<X<x) =F Ax) -FA-x-=0). 


o sea, (12). 


Queremos concluir nuestras consideraciones sobre variables aleatorias, con un señala- 
miento referente a que el espacio de probabilidad tomado por base para una variable 
aleatoria no se presenta frecuentemente de forma explícita. Para investigaciones teórico- 
probabilísticas de variables aleatorias, en casos de aplicación, son esenciales las distribu- 
ciones de probabilidad de las variables aleatorias consideradas, que están caracterizadas 
por las funciones de distribución. 

Por último, advertimos que en algunos libros de texto la función de distribución F, de 
una variable aleatoria X no se introduce como aquí mediante la definición 2, por 
Е 4х) =P(X<x), sino por F Ax) =P(X< x). 


4.2 Definición de variable aleatoria discreta 


Definición 1. Una variable aleatoria se llama discreta, si puede aceptar un número 
finito o infinito numerable de valores, es décir, si el dominio de valores es un conjunto 
a lo sumo numerable. 


Desde el punto de vista del Cáleulo de probabilidades podemos considerar una variable 
aleatoria discreta como dada, si están dados los distintos valores x, de la variable alea- 
toria Ху las llamadas probabilidades individuales p,=P(Y=x,), con las cuales la variable 
aleatoria Х acepta estos valores. En casos concretos se mencionan por conveniencia solo 
aquellos valores x,. para los cuales la probabilidad individual correspondiente p, es po- 
sitiva; sin embargo, no queremos acordar esto rigurosamente, para que no resulten difi- 
cultades innecesarias en las consideraciones teóricas. 

Se caracteriza una variable aleatoria discreta X, que acepta los valores x, con las pro- 
babilidades р. рог la llamada tabla de distribución. 


(1) 
que. si es posible, se representa también gráficamente (fig. 21). 
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Figura 21 


El teorema siguiente muestra, entre otras cosas, que mediante la tabla de distribución 
se fija realmente ia función de distribución de ia variabie aleatoria considerada. 

Teorema 1. Sea X una variable aleatoria discreta con la tabla de distribución (1). 
Entonces se cumplen las proposiciones siguientes: 


1, p,>0, > p,=1. 
k 


2. FAx) = 2 P,» extendiéndose la sumatoria sobre todas aquellas k para las cuales se 


dix <x 
cumple que x,<x. 


3. La función de dist 


saltos de la altura p,. 


Dejamos la demostración sencilla de este teorema al lector; esta se obtiene de los axio- 
mas del Cálculo de probabilidades y mediante referencia a la definición de función de dis 
tribución. No hemos excluido en la definición 1 el caso de que la variable aleatoria Х pue- 
da aceptar solo un único valor x,; ella aceptaría entonces este valor con la probabilidad 
1. La tabla de distribución perteneciente a esta variable aleatoria Y y la función de dis- 
tribución tienen la forma sencilla siguiente: 


[ O para x< x, (ig. 22) 


‹ 1 para 1>x, 


X: Е РОХ =х,) =1; Ех) = 
[229 


Figura 22 


Se dice también que X posee una distribución puntual (еп el punto x,). Por consiguiente, 
una variable aleatoria distribuida en un punto posee siempre, independientemente del re- 
sultado del experimento, un mismo valor. Este caso puede concebirse como caso extremo 
de lo casual. 


Concluiremos este epigrafe con un ejemplo. 


Ejemplo. La probabilidad de que un cazador acierte un objetivo es de 0,4 en cada 
tiro. Se acuerda que solo en caso de no acertar con el primer tiro se tire una segunda vez. 
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Si entonces el objetivo tampoco es acertado, se dispara una tercera y hasta una cuarta 
vez, en caso de no dar en el blanco con el tercer tiro. Independientemente de si el cuarto 
tiro fue certero o no, no se dispara después ninguna otra vez. Designemos con X el nú- 
mero de los tiros disparados por los cazadores; X es una variable aleatoria discreta. Los 
valores posibles de esta variable aleatoria son los números 1, 2, 3 y 4. Calculemos ahora 
las probabilidades individuales р, = Р(Х =) para k=1, 2, 3 y 4. Para ello introduzcamos 
los sucesos siguientes: 


A, ... El tiro número i es certero (i=1, 2, 3, 4). 


Se cumple que Р(4) =0,4 у P(A) =0,6. Además, los sucesos A, Ap A, у 4, son com- 
pletamente independientes (ver 3.3, definición 2). Así, por ejemplo, la probabilidad del 
suceso da en el blanco con el tercer tiro es igual a la probabilidad de este suceso bajo la 
condición de que los tiros anteriores fueran certeros; por tanto, en esta reflexión no posee 
ninguna significación el que, por ejemplo, no se disparen otros tiros en caso de dar en el 
blanco con el primero. 

Expresemos los sucesos (Y=1), (Х=2), (X=3) y (Х=4) mediante los sucesos A,, 4, 4, 
y A; 

(X=1) =4p 
(Х=2) =А, ПА» 
(X=3) =A, NA, A, 
(X=4) =4,NA,NA,, 
Luego, se muestra que no necesitamos para esto al suceso 4, 
Considerando la independencia de los sucesos A, A,, 4, y A, obtenemos 


p,=P(X=1) = А) =0,4, 

р,=Р(Х=2) =P(A,NA)) =P(A)PA) =0,6 -0,4=0,24, 

p,=P(X=3) =P(A, nA. 204) =P(A)P(A) PA) =0,6 -0,6 -0,4=0,144, 

p,=P(X=4) =P(A, CANA) =P(A) P(AJ)P(A) =0,6 -0,6 -0,6=0,216. 
(El cálculo de p, hubiéramos podido hacerlo más sencillo, ya que los sucesos (Y=1), 
(Х=2), (Х=3) у (Х=4) forman un sistema completo de sucesos y con esto se cumple que 
Py+P+p+p =1). 

La tabla de distribución de la variable aleatoria X tiene, por consiguiente, la forma si- 

guiente (comparar con fig. 23): 


03 
0,24 
02 0,216 
0,144 
0,1 
0 1 2 3 EEE Figura 23 
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Para la función de distribución F, se obtiene (fig. 24) 


0 para х< 1, 
p,=0,4 para 1<x< 2, 
F(x) =p(X <x) = (p,+p,=0,64 para 2<x< 3, 

P,+Py+P,=0,784 para 3<x< 4, 
P,+Py+P,+p,=1 para x>4. 

y 

1 — 1 

09 yF (x) i 

03 po 0,784 

0,7 і 

0,6 0,64 


а а 


х Figura 24 


4.3 Características numéricas de las variables aleatorias 
discretas 


En muchas ocasiones no estamos muy interesados por el conocimiento completo de todas 
las probabilidades individuales de una variable aleatoria discreta, sino mucho más por 
ciertas magnitudes denominadas también características, que siempre proporcionan algu- 
na información sobre la variable aleatoria y su distribución de probabilidad. En este epi- 
grafe trataremos el valor esperado y la varianza de variables aleatorias discretas. El valor 
esperado y la varianza, pertenecen a los llamados momentos de una variable aleatoria. 


Definición 1. Sea X una variable aleatoria discreta que toma los valores x, con las 
probabilidades p, Entonces el número EX definido por 


EX= Dx» Mm 
Е 
se llama valor esperado de la variable aleatoria Х; aquí se supone que la serie situada en 
el miembro derecho de (1) converge absolutamente, o sea, que se cumple que 
5 [x,[p,<+>. (Esta condición se satisface trivialmente en el caso que X posea solo un 
número finito de valores, de modo que a toda variable aleatoria discreta con un número 
finito de valores le corresponde, según (1), un valor esperado.) 


Por consiguiente, el valor esperado de una variable aleatoria discreta es la media pe- 
sada de todos los valores x, de X, empleándose como peso de todo valor x, la probabilidad 
individual correspondiente p,. (Aquí no se presenta explícitamente la división por la suma 
de todos los pesos, usual para la media pesada, ya que esta suma es igual a uno.) 


58 4 


La tabla de distribución de una variable aleatoria discreta que toma los valores x, con las probabi- 
lidades р», se ilustra bien como un sistema de mesas puntuales que posee en los lugares x, masas p, (y 
tiene, por tanto, la masa total uno). En esta ilustración corresponde al valor esperado de la variable 
aleatoria el centro de gravedad del sistema de masas puntuales. 

Ejemplo. Calculemos para la variable aleatoria X considerada en el ejemplo del epi- 
grafe 4.2 el valor esperado: 


EX= > х, р,=1 .0,4+2 .0,24+3 -0,144+4 -0,216=2,176. 


k 

Como muestra el ejemplo, el valor esperado no es, comúnmente, un valor de la va- 
riable aleatoria considerada. Aún cuando el valor esperado sea un valor de la variable 
aleatoria, este no será, por lo general, uno de los valores de esta, que en comparación con 
los otros tiene la mayor probabilidad y que por eso uno esperaría más. Estos valores se 
denominan valores modales. La razón para denominar a EX valor esperado se debe ver 
en que la media aritmética de los valores observados de la variable aleatoria es aproxi- 
madamente igual al valor esperado, satisfaciéndose esto tanto mejor, cuanto mayor sea el 
número de los valores observados utilizados para la formación de la media (ver 7.4). 


Los teoremas siguientes contienen proposiciones, que son útiles para el cálculo con va- 
lores esperados. 


Teorema 1. Sea X una variable aleatoria discreta con el valor esperado EX, y a y 
b sean números reales cualesquiera. Entonces se cumple que 


E(aX+b) =aEX+b. (2) 


Demostración. Si la variable aleatoria X toma los valores x, con las probabilidades 
Py entonces la variable aleatoria Y=aX+b acepta los valores y,=ax,+b con las proba- 
bilidades p, Por tanto, se cumple que 


EY =E(aX +b) = > у, P= > (ax, +b)p,=a > х, Ptb > Pe 
k k k k 


Con EX= > X, Di Y > p,=1, resulta de aquí la afirmación. 
Luego, se cumple en particular (a=1, Б= -ЕХ) que 
E(X—EX) =0; (3) 
el paso de la variable aleatoria Y a la Х-ЁЕХ se llama centrar. 


Teorema 2. Sea Х uga variable aleatoria discreta que toma los valores x, con las pro- 
babilidades p, y g, una función real continua definida sobre el eje real. Si la serie 


> MEATA converge absolutamente (es decir, si > FEA |р, < œ), entonces se cumple 
a : 
(4) 
Dejamos la demostración al lector. Para g(x) =x se cumple el teorema 2 sobre la base 


de la definición 1. Para g(x) =(x—c) у g'(x) =|x-c| (j un número natural arbitrario, 
c un número real cualquiera) se obtiene respectivamente con (4) que 


ЕХ-0= $ (0, j (5) 
k 
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E|X-c| i= > |x,—cl ір, (6) 
k 
siempre y cuando la serie situada a la derecha de (6) sea convergente. 

Variables aleatorias con el mismo valor esperado pueden diferenciarse considerable- 
mente en las tablas de distribución, ya que el valor esperado no ofrece ninguna informa- 
ción de cómo se desvían los valores individuales de la variable aleatoria del valor espe- 
rado. La llamada varianza es la medida más utilizada de la desviación de los valores res- 
pecto al valor promedio de la variable aleatoria, que se describe por el valor esperado. 


Definición 2. Sea X una variable aleatoria discreta con el valor esperado EX, que 
toma los valores x, con las probabilidades p,=P(Y=x,). Entonces el número D*X definido 
por 


D'X=E(X-—EX)?= > (x, -EX P, : l (7) 
k 


se llama varianza (también dispersión) de la variable aleatoria X, donde se supone la 
convergencia de la serie situada en el miembro derecho de (7) (o sea, 


(x, EX)? p, < =). (Esta condición se satisface trivialmente en el caso de que X posea 


k 
solo un número finito de valores, de modo que, a toda variable aleatoria discreta con un 
número finito de valores le corresponde según (7) una varianza.) El número 


0,=V DX 8) 


se llama desviación estándar (o desviación típica) de la variable aleatoria X. 

La varianza de una variable aleatoria X es, por tanto, la media pesada de los cuadra- 
dos de las desviaciones de los valores x, de X, del valor esperado EX de esta variable 
aleatoria discreta, siendo utilizadas de nuevo como pesos las probabilidades individuales 
con las cuales se presentan estos valores. 


Si se ilustra una variable aleatoria discreta X (valor esperado EX, varianza D?X) como un sistema 
de masas puntuales (con el centro de gravedad EX), entonces corresponde а la varianza D?X el momen- 
to de inercia de este sistema con respecto a un eje que pasa por el centro de gravedad. 


Ejemplo. Calculemos para la variable aleatoria Y, considerada en el ejemplo del epi- 
grafe 4.2, la varianza у la desviación estándar; para ello emplearemos ЕХ=2,176: 


D'X= > (х, ЕХ) P, 
k 


__ {9 A 17£12.N A 1A 
={(1— 2,1/0) 0,9702 — 


(4—2,176)? -0,216 
=2,257 


„= р?Х =y 2,257 =1,503. 


La fórmula contenida en el teorema siguiente se recomienda con frecuencia para el 
cálculo de la varianza. 
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Teorema 3. Sea X una variable aleatoria discreta con valor esperado EX y varianza 
D?X, que toma los valores x, con las probabilidades р,. Entonces existe EX”, y se cumple 


que 
DiX= У a ( > х) Ех" (8) 
к к 


Demostración. Utilizando (7), (1) y Уһ se obtiene 
k 


рх= У -ED p,= D, 01-25, ЕХ+ЦЕХ 9 P, 
k k 

Y inaen У хоче У o, 

k k e 

> xi »,( > х, Р, ): 

k k 


el resto se obtiene con (4), si se hace g(x) =x? 


Si se ilustra una variable aleatoria discreta como un sistema de masas puntuales con la masa total 
uno, entonces el tenrema 3 reproduce el hecho bien conocida en la Mecánica y denominado como 
teorema de Steiner, según el cual, el momento de inercia de un sistema semejante de masas puntuales 
respecto a un eje que pasa por el origen, es igual a la suma del momento de inercia con respecto a un 
eje que pasa por el centro de gravedad y el cuadrado de la distancia del centro de gravedad al origen. 
Por esta razón, se denomina también en la Teoría de probabilidades la proposición del teorema 3 como 
teorema de Steiner. 


Veamos ahora una proposición que se corresponde bien con nuestras ideas acerca del 
contenido del concepto varianza. 


Teorema 4. La varianza de una variable aleatoria discreta es igual a cero, si y solo 
si la variable aleatoria posee una distribución puntual, 


Dejamos la demostración al lector; ella se obtiene directamente de (7). 


Teorema 5. Sea Х una variable aleatoria discreta con la varianza D?X, y sean a у 
b números reales cualesquiera. Entonces se cumple que 


D? (aX+b) =a*D*X. (10) 
Demostración. Con (7) y (2) se obtiene 


D? (aX+b) =ElaX+b-ElaX +b))? 
=El(aX+b-—aEX-b)? 
=E(aAX-EX) 3 
=G4E(Y-—EX)*=a*D*X, 


Luego, se cumplen en particular las ecuaciones 


D? (-Х) =D, (11) 
y 
о (12) 
D?X 
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El paso de la variable aleatoria Ха la к= se llama normar. 
DX 


X-EX 


Para la variable aleatoria Z= se cumple, por tanto, que EZ=0 y D’Z=1; 


DY 
se llama estandarizar. 
y DY j 


Las características tratadas hasta ahora: valor esperado y varianza, pertenecen a los denominados 
momentos. A continuación traemos la definición de los momentos. 


X-— 


el paso de Ха 


Definición 3. Sea X una variable aleatoria discreta que toma los valores x, con las probabilidades 
Py además, sea ј un número natural y с, un número real arbitrario. Entonces los números 


ufo) =E(X-c)/= > AA (13) 
k 


в, (©) =ElX-cP= > PERA (14) 
k 


se llaman, respectivamente, momento ordinario y momento absoluto de orden j con respecto а c, supo- 
niéndose la convergencia absoluta de la serie situada a la derecha en (13) (o sea, la convergencia de 
la serie situada a la derecha en (14)). Para c=0 se habla de momentos iniciales y para c=EX, de mo- 
mentos centrales (suponiéndose la existencia de EX). 


A simple vista se observa que se cumplen las ecuaciones р.(0} =EX, y, (EX) =0,1,(0) =ЕХ?, a (0) = EX? 
y MEX) =DiX=0 (EX). La ecuación (9) plantea que и(ЕХ) =142,(0) -lu (0) |2. 
Aún queremos dar y demostrar una inecuación sobre momentos. 


Teorema 6. Sea Х una variable aleatoria discreta con la varianza D*Y у с un número real arbi- 
trario. Entonces se cumple que 


DX< uo; (15) 
aquí se establece el símbolo de igualdad si y solo si se hace c=EX. 


Demostración. Utilicemos (13), (1), > Py=1, (9) y obtenemos que 


e 
uo) =E(X-c)*= > 2e) P= У (xf-2cx, +c?) р, 
k k 


> xi p,-2c > х, Pte? > Pk 
k k 


k 


=EX*-2cEX+c* 
LEX (EX) *+(EX)?-2cEX+0* 
=DIXHEX-—c)?> РЖ, 


de donde se obtiene la proposición del teorema 6. 


El teorema 6 muestra que la varianza es el más pequeño de los momentos de segundo orden. El lector 
debiera comparar esta proposición con la correspondiente sobre momentos de inercia. 


El teorema siguiente, sin demostración, contiene algunas otras proposiciones sobre momentos, utili- 
zándose para los momentos iniciales ordinarios de orden j la notación m4m,=4, (0)); para los momen- 
tos centrales ordinarios de orden j, la notación и, (= ЕХ))у para los momentos iniciales absolutos 
de orden j, la notación B£P,=a/0)). 
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Teorema 7. Se cumplen las proposiciones siguientes: 


1. m,=B,, más general, 1, (с) =а,с). т j 
2. Si existe В. entonces existe también В, рага O<!<j, y se cumple la inecuación V В, < VB, А 


J 
3. „=>, (1 ( $. m1) 1-1) тј (7=2,3,...). (Para j=2 proporciona esto 
1 
1=2 í 
m,=m,—m?, es decir, la ecuación (9)). 


Las características derivadas de los momentos, dadas en la siguiente definición, son de importancia 
para la apreciación de una distribución de probabilidad. 


Definición 4. Sea X una variable aleatoria discreta con varianza positiva. Entonces se llama 


ax _\№ (coeficiente de variación), (16) 
EX m, 
EX -ЕХ) ` 
И (coeficiente de asimetría), (17) 
с? Г 
x (1)? 
Е(Х-ЕХ)* Ў 
n= { х аіиб: (сигіозіѕ). (18) 
oi u 


aquí se supone la existencia de los momentos que aparecen y que EXx0 en (16). 


El coeficiente de variación es una medida de dispersión referida al valor esperado. El coeficiente de 
asimetría se muestra como una medida para la asimetría de una distribución de probabilidad, denomi- 
nándose una variable aleatoria Х con la función de distribución F simétrica (con respecto a a), si existe 
un número а tal que Р(Х <a—x) =P(X>a+x), o sea, si se cumple que Ка-х) =1-Еа+х+0) para to 
do número real x. Por último, la curtosis se utiliza como una medida para la desviación de una dis- 
tribución de probabilidad de la distribución normal (tratada en 5.4). (Para la distribución normal se 
cumple п=0.) 


4.4 Distribución discreta uniforme 


En este y en los siguientes epigrafes trataremos algunas distribuciones de probabilidad es- 
peciales de variables aleatorias discretas. 


Definición 1. Una variable aleatoria discreta Y con los valores x, Xp... х, se de- 
nomina uniformemente distribuida, si se cumple que 


p,=P(lX=x,) id (k=1, 2,...,п). (1 
n 
Se dice también, entonces, que Y posee una distribución discreta uniforme (en los valores 
Xp Xp. Xp). 
Una variable aleatoria discreta distribuida uniformemente está caracterizada, por tan- 
to, porque solo puede tomar un número finito de valores, que tienen todos la misma pro- 


babilidad. Evidentemente no puede existir una distribución uniforme en un número in- 
finito numerable de valores. 
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En casos de aplicación se considera distribuida uniformemente una variable aleatoria 
con un número finito de valores, si ésta —expresado de forma intuitiva— no prefiere nin- 
guno de sus valores. Asi se acepta, por ejemplo, que el número que resuita al tirar un da- 
do es una variable aleatoria distribuida uniformemente (en los números 1 hasta 6), así co- 
mo que los números emitidos en Tele-Lotto también poseen una distribución uniforme. 


Para el valor esperado EX de una variable aleatoria distribuida uniformemente en los 
valores x, X,...,x, se obtiene (ver 4.3 (1)) que 


1 
ЕХ=— У Р (2) 
п E 


luego se obtiene la media aritmética de los valores; para la varianza se cumple (ver 4.3 
(9)) que 


x= (25, Y. (3) 
n kai n k=l 


4.5 Distribución binomial 


La distribución binomial es una distribución discreta que posee gran significación prácti- 
ca. Además, representa un medio auxiliar apropiado para la investigación de regularida- 
des de fenómenos aleatorios, que son de importancia fundamental para la teoría de pro- 
babilidades y para su aplicación práctica. 


Definición 1. Sea n un número natural arbitrario y p, un número situado entre cero 
y uno. Una variable aleatoria Х que tome los valores 0, 1, 2,..., м se denomina distribuida 
binomialmente con los parámetros n y p, si se cumple que 


P(X=k) = (" ) p“ -р)"-* (@) 


рага k=0, 1, 2,...,п. Se dice también que X posee una distribución binomial con los pa- 
rámetros n y p. 


Antes de que investiguemos de forma más exacta la distribución binomial, queremos 
ocuparnos de su existencia. El punto de partida lo constituye un suceso aleatorio 4, que 
se presenta en el resultado de un determinado experimento aleatorio con la probabilidad 
P(A) =p. El núme:., (aleatorio) F (4), de la ocurrencia de A еп п repeticiones realizadas 
independientemente unas de otras del experimento aleatorio considerado, es una variable 
aleatoria discreta con los и+1 valores 0, 1, 2,...,п. Ahora queremos calcular las proba- 
bilidades 


p,=P(F, (4) =k) para k=0, 1, 2,...,п. 


El suceso (F (4) =k) ocurre si y solo si en la serie de experimentos descrita, el suceso A 
ocurre k veces y el A, (n—k) veces. Toda sucesión de sucesos semejante posee, a causa 
de la independencia de cada uno de los experimentos, la probabilidad p*(1—p)"-* Como 
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р n , 
existen ( k ) sucesiones de resultados, para los cuales aparec: k veces A у (n—k) veces 


А, se obtiene 
РЕДА) =k) ЕС: Joao 0) 


La frecuencia absoluta, concebida como variable aleatoria, de la ocurrencia del suceso 
A(P(A) =p) en n repeticiones independientes del experimento tomado por base posee, por 
consiguiente, una distribución binomial con los parámetros n y p (ver 2.1). 

Para destacar la dependencia de cada una de las probabilidades P(X=k) de una varia- 
ble aleatoria distribuida binomialmente con los parámetros n y p, de estos parámetros, se: 
utiliza ocasionalmente la notación b(k; п, р), 


b(k; п, p) -( й )= (-р)"“. (3) 


El nombre de distribución binomial se basa en que cada una de las probabilidades 
ЫК; n,p) para k=0, 1, 2,...,п son los sumandos del desarrollo del binomio [(1 —р) +pP, 


n 
con lo cual se aclara también la relación > ЫК; п,р) =1. 
k=0 
La distribución binomial se debe a Jacobo Bernoulli (1654-1705), que fue uno de los primeros en tra- 
tar la teoría de probabilidades. Jacobo Bernoulli y su igualmente famoso hermano Juan Bernoulli 
(1667-1748) pertenecen a los más significativos discipulos de G.W. Leibniz (1646-1716). Jacobo Berfou- 
lli fue profesor desde 1687 hasta su fallecimiento en la Universidad de Basilea. Él escribió Ars conjec- 
tandi (publicado póstumamente en 1713), uno de los primeros libros sobre el Cálculo de probabilidades; 
este contiene proposiciones fundamentales, en particular, sobre la distribución binomial. Por eso se en- 
cuentra con frecuencia la distribución binomial bajo el nombre de distribución de Bernoulli, y más aún 
la denominación del esquema de experimentos descrito anteriormente (repeticiones independientes de 
un mismo experimento) como esquema de Bernoulli. 


Ejemplo. En una fábrica se producen piezas troqueladas. El productor ha asegurado 
que las piezas con dimensiones adecuadas representan el 90 %. Se extraen ahora 20 piezas 
de la producción continua y entre estas solo se encuentran 15 con dimensiones adecuadas. 
Queremos ocuparnos con la interrogante de si está justificado poner en duda los informes 
del productor con respecto al porcentaje de piezas con dimensiones adecuadas, sobre la 
base de la muestra. Para ello consideramos la variable aleatoria X, que indica el número 
(aleatorio) de piezas con dimensiones no adecuadas en una muestra de tamaño п=20. Su- 
pongamos, de acuerdo con el informe del productor, que la probabilidad de producir una 
pieza con dimensiones no adecuadas sea igual a 0,10 (=10%); entonces la variable 
aleatoria X posee una distribución binomial con los parámetros п=20 y p=0,10. Cada 
una de las probabilidades P(X=k) de esta variable aleatoria X se deben calcular, por tan 
to, según la fórmul.. 


P(X=k) =h(k; 20, 0,10) a елок -0,10)2- (k=0, 1, 2, ..., 20) 


Obtenemos la tabla de distribución 


Aa 
о оз [во аа ав 
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y P(X=k) <0,0005 para k=8, 9....,20 (ver tabla 1 (12.1) y fig. 25). Con esto se demuestra 
que el resultado descrito anteriormente de la muestra (5 piezas çon dimensiones no ade- 
cuadas en la muestra aleatoria de 20 piezas), suponiendo que p=0,10, posee una proba- 
bilidad que es aproximadamente igual а 0,03 (=3 %). Por tanto, sobre la base de esta 
muestra se pondrán seriamente en duda los informes del productor. Si se quiere estimar 
la probabilidad p de producir una pieza con dimensiones no adecuadas, sobre la base de 
la muestra independientemente de los informes del productor, entonces se utilizará como 
valor estimado p la frecuencia relativa de la presencia de piezas con dimensiones 
no adecuadas еп la muestra, es decir, se utilizará el número 
р = 2- + =0,25 (25 %). (Se reflexiona fácilmente que р es aquel número para el cual 
la función р -—>b(5;20,p) acepta el máximo, o sea, que р es aquel valor рага el cual es 
mayor la probabilidad de obtener una muestra como la extraida.) 


P(X=x) 
03 
02 
01 
0,032 
0,009 0,002 0,000 
0 5 6 7 8 х Figura 25 


La gran significación práctica de la distribución binomial se muestra ya en este ejemplo. 
«En general, podemos afirmar que el número aleatorio de las piezas defectuosas (o de las 
distinguidas por alguna otra propiedad) en una muestra de tamaño n, tomada de una pro- 
ducción continua cuyo porcentaje de piezas desechables es de 100 p%, posee una distri- 
bución binomial con los parámetros n y p. También el número aleatorio de las piezas de- 
fectuosas en una muestra de tamaño n, tomada de una población finita (por ejemplo, de 
la producción diaria de una fábrica), con un porcentaje de desecho de 100p%, posee una 
distribución binomial con los parámetros n y p, si la extracción de cada una de las piezas 
se realiza consecutivamente y antes de cada extracción se repone de nuevo la pieza toma- 
da anteriormente. (Una muestra tomada de esta forma se llama una muestra con reposi- 
ción. Se debe prestar atención a que en una muestra sin reposición, el número aleatorio 
de las piezas defectuosas no posee una distribución binomial, sino una llamada distribu- 
ción hipergeométrica; de esta distribución nos ocuparemos en el próximo epígrafe.) 

Para el cálculo práctico de probabilidades de variables aleatorias distrihuidas binomial- 
mente, son importantes las proposiciones señaladas en el teorema siguiente. 


Teorema 1. Se cumplen las ecuaciones 


ЫК; п, p)=b(n—k; п, 1-р), (4) 


ТЕР аш 
k+1 


. Z blk;n.p), (5) 
1-р 
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ЕЙ ЕН: 6) 
п-К+1 р 


ЫЕ-1; п, р) = 


Las demostraciones de las fórmulas indicadas son fáciles de realizar mediante el empleo 
de la definición de los coeficientes del binomio y utilizando (3). La fórmula (4) muestra 
que para hacer tablas nos podemos limitar al caso 0 <p< 0,5; las fórmulas (5) y (6) son 
fórmulas para el cálculo recursivo de b(k+1; n,p) y b(k—1; n.p) a partir de b(k:n, p). 
Por lo demás, se debe tener en cuenta que el cálculo de b(k; п, р) tropieza con dificulta- 
des, particularmente para n grandes y p pequeñas; con posterioridad conoceremos fórmu- 
las de aproximación, convenientes precisamente para estos casos. 

Nos dedicaremos ahora a la determinación del valor esperado y de la varianza de va- 
riables aleatorias distribuidas binomialmente. 


Teorema 2. Sea X una variable aleatoria distribuida binomialmente con los paráme- 
tros n y p. Entonces se cumple que 


ЕХ=пр, (7) 
РХ =пр(1—р). (8) 


o= y np(1—p) . (9) 


Demostración. Demostraremos solo (7); la fórmula (8) se obtiene a través de cálcu- 
los análogos y (9) se obtiene directamente de (8). Para el valor esperado tenemos que 


EX=)> k xo (" ) а n-k 
км ) 2 "jram 
Si (1) ran 
2 
=>." р )» 0)" 
£ Ак 
S/(n-1 
=np ( ) ка (1 pp) 1-0 
> г р“! (1-р) 
ку a-l 
=пр (' ) ram 
2C, 


= np lp+(1—p)1'-*=mp. 


Asi vemos que, en concordancia con nuestras ideas sobre este contenido, el valor espe- 
rado de la frecuencia absoluta F (4) de la ocurrencia de А en n repeticiones independien- 
tes de un experimento, es igual al producto del número n de experimentos por la proba- 
bilidad P(4) de este suceso, y que la varianza para p=0 y p=1 es igual a cero y para 


1 з 
р= Р es máxima. 


El teorema siguiente da información sobre el coeficiente de variación 0, el coeficiente de asimetría 
y y la curtosis п de una distribución binomial. 
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Teorema 3. Sea Х una variable aleatoria distribuida binomialmente con los parámetros n у р. En- 
tonces se cumple que 


1-p 
np Ў 


1-2 
ы. SA, an 


\ np(1 —p) 


и 1 —6p(l —p) 
np(1 —р) 


d= 


(10) 


(12) 


Renunciaremos a la demostración de (11) y (12); (10) se aclara sobre la base de (7) y (9). Obser- 
1 
vemos que en el caso p= —-, y es igual a cero. En este caso, se cumple que P(Y=k) =P(X=n—k), lo 


cual es equivalente a la simetría de la distribución binomial con los parámetros п y p= —. 


Para finalizar las consideraciones sobre la distribución binomial, queremos destacar 
una relación fundamental entre la frecuencia relativa de un suceso en n experimentos 
(ver 2.1) y la probabilidad de este. 


Teorema 4. Sea A un suceso aleatorio que se presenta en el desarroilo de un deter- 
minado experimento con la probabilidad P(4). Además, designe /,(4) la frecuencia rela- 
tiva (concebida como variable aleatoria) de la ocurrencia de A en n repeticiones realiza- 
das independientemente unas de otras de este experimento. Entonces se cumple que 


Ef(4) =Р(А), . (13) 
Df (A) 0 para п => œ. (14) 


Demostración. Designemos con F (4) la frecuencia absoluta (concebida como varia- 
ble aleatoria) de la ocurrencia de A en un esquema de Bernoulli. Según reflexiones an- 
teriores F,(4) está distribuida binomialmente con los parámetros n y p=P(4). Sobre la ba- 
se de (7) y (8) se cumple, por tanto, EF, (А) =np y D*F (4) =np(1 —р). Entre la frecuencia 


absoluta F (4) y la frecuencia relativa f (4) existe la relación 704) -EA De aqui 
n 


se obtiene (ver 4.3 (2) y (10) con a= La y b=0), 
n 


F 
п п n 


p-p) 
n 


-0 (n => о). 


ру, (4) =D! EIA =L ар-р) = 
п п? п? 


Las relaciones (13) y (14) muestran que entre la probabilidad de un suceso aleatorio, 
introducida axiomáticamente, y las frecuencias relativas de este suceso, halladas de forma 
práctica, existen nexos muy estrechos. La validez de las relaciones señaladas constituye. 
un motivo suficiente para estimar la probabilidad de un suceso aleatorio mediante fre- 
cuencias relativas; este valor estimado representará tanto mejo un valor aproximado de 
la probabilidad cuanto mayor sea el número de los experimentos realizados. La posibili- 
dad de estimar probabilidades de modo razonable hace de la teoría de probabilidades una 
disciplina matemática de aplicación práctica. 
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4.6 Distribución hipergeométrica 


La distribución hipergeométrica es una distribución discreta, que posee gran significación 
práctica, sobre todo en el control estadístico de la calidad. 


Definición 1. Sean N, Му п números naturales con M< Му n< N. Una variable 
aleatoria Х que posee como valores los números naturales К con k< n, К< М, 
n—k< N—M (luego, estos son los números k=máx (0, n-(N—M)), .... min (M,n)), se 
denomina distribuida hipergeométricamente si se cumple que 


1) Ce 


PA = k) > MMMM, (1) 


(7) 


Se dice entonces también que X posee una distribución hipergeométrica. 


Hemos advertido ya en el epígrafe anterior que la distribución hipergeométrica se pre- 
senta en relación con muestras aleatorias, sin reposición; queremos explicar esto de forma 
más exacta. 


Un lote de mercancias contiene N objetos, entre los que se encuentran M defectuosos 
(o distinguidos por alguna otra propiedad). Tomemos sucesivamente del lote, de forma 
aleatoria y sin reposición o de una vez, que es lo mismo, n objetos; en este contexto la 
frase de forma aleatoria significa que todas las muestras posibles tienen la misma proba- 
bilidad. Si designamos con Х el número, concebido como variable aleatoria, de los objetos 
defectuosos en una muestra extraída de este modo, entonces un número natural К es evi- 
dentemente un valor de Х si y solo si k< n, k< M y n-k< N—M. Para el cálculo de las 
probabilidades P(Y=k) fijemos que el suceso (Y=k) ocurre si y solo si de 105 М objetos 
defectuosos existentes están contenidos k de ellos en la muestra aleatoria (para esto existen 


(e ) posibilidades), у si de los М-М sin desperfectos están contenidos n—k еп la 


аса (para esto existen ( ) posibilidades). Como existen en total (~ ) po- 


n— 
sibilidades de escoger n objetos de N de ellos, se obtiene precisamente para P(Y= в. apli- 
cando la definición clásica de probabilidad, la ecuación (1), o sea, X está distribuida hi- 
pergeométricamente. Llamamos la atención de que el número (aleatorio) de los objetos de- 
fectuosos en una muestra aleatoria con reposición está distribuido binomialmente con los 


M 
parámetros пу р= —. 
N 
Ejemplo. Sea N=100, M=5 y n=10. Designe Y el número (aleatorio) de los objetos 
defectuosos en una muestra aleatoria. 


a) con reposición, 
5) sin reposición. 


Calculemos para cada caso la probabilidad P(Y=1). 


a) P(X=1) =b(1;10, 0,05) -(" ) 0,05 (1—0,05)?=0,32. 
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ЕС) 
10-1 1 9 
= aeee =034 
Co) o) 
10 10 
Nos asalta entonces la idea, de que cada una de las probabilidades de la distribución 
hipergeométrica y binomial no se diferencian esencialmente, si el tamaño de la muestra 
n es pequeña en relación con el tamaño N del lote de mercancias (n<<N). En este caso, 
por ejemplo, la no reposición de un objeto defectuoso tiene una influencia muy pequeña 
sobre la distribución de probabilidad para la próxima extracción. (En esta relación es in- 


teresante la proposición siguiente: también en una muestra sin reposición la probabilidad 
de extrúer un objeto defectuoso es igual para las distintas extracciones; esta es igual a 


b) PX=1)= 


M 
p= у. 
El teorema siguiente afirma la suposición anteriormente señalada. 


Teorema 1. Se cumple para k=0, 1, 2, ..., п 


С 


р О) ХА? 


Y pacos. 


a 
N 
~< 


Renunciaremos a la етс з ración, que no es dificil. Del teorema 1 inferimos que se 
puede sustituir en el caso n<<N las probabilidades Р(Х =К) de una variable aleatoria dis- 
tribuida hipergeométricamente por las probabilidades b(k; п, р) de una variable aleatoria 


distribuida binomialmente, haciéndose p=% 


Por último, indicaremos el valor esperado y la varianza de una variable aleatoria dis- 
tribuida hipergeométricamente. 


Teorema 2. Sea Y una variable aleatoria distribuida hipergeométricamente. Entonces 
M 
se cumple, con p= N , que 


EX=np, (3) 


DiX=mp (1-р) МЫ (4) 


Dejamos la demostración de esto al lector. Comparemos aún el valor esperado y la va- 

. rianza del número (aleatorio) de los objetos defectuosos en una muestra sin reposición 
(distribución hipergeométrica), con los parámetros correspondientes en una muestra con 
reposición (distribución binomial, ver 4.5 (7) y (8)). Como se aprecia, los valores espe- 
rados son iguales con ambos métodos de extracción de la muestra. Por el contrario, la va- 
rianza en una muestra sin reposición es menor que en una con reposición 


<np(1 —p) para 1 <п< N), pero рага N grande la diferencia es pequeña 


(пра р) Y 
N-1 


N- 
: =np (1-—p) ). como era de esperar también sobre la base del 


(tin пр @-р) 


teorema 1. 
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4.7 Distribución de Poisson 


La distribución de Poisson es una distribución discreta en un número infinito numerable 
de valores; esta desempeña una importante función como distribución límite de la distri- 
bución binomial, en particular, para el cálculo numérico de las probabilidades b(k; п, р) 
cuando n es grande y p pequeña. 


Definición 1. Sea A un número positivo arbitrario. Una variable aleatoria Y, que 
puede tomar los valores 0, 1, 2,..., se denomina distribuida según Poisson con el parámetro 
A, si se cumple que 


k 


PX=k) = = e- a) 


para k=0, 1, 2,... Se dice entonces que X posee una distribución de Poisson con'el pará- 
metro A. 
La evidencia de que mediante (1) está definida una probabilidad, se obtiene directa- 

y 

mente aplicando el desarrollo en serie de la función exponencial ed —- оо <А < оо. 
к=0 ч 

Con el objetivo de destacar la dependencia del parámetro A de las probabilidades 

Р(Х = Кк) de una variable aleatoria X, que posee una distribución de Poisson con parámetro 

A, se utiliza ocasionalmente la notación p(k; A) para estas probabilidades 


k p-A 


A 
plk; = 2) 
k! 


La distribución de Poisson se debe a S.D. Poisson (1781-1840), matemático francés extraordinaria- 
mente productivo, cuyo nombre está unido a numerosos conceptos de la matemática (por ejemplo, la 
integral de Poisson y la ecuación de Poisson en la teoría de los potenciales). 


Indicaremos ahora el valor esperado y la varianza de una variable aleatoria distribuida 
según Poisson con el parámetro A; aquí también se aclarará la función del parámetro A. 


Teorema 1. Sea X una variable aleatoria distribuida según Poisson con el parámetro 
А>0. Entonces se cumple que 


ЕХ=^, (3) 
DY =A. (4) 


Demostración. бою demostraremos (3); el lector debe demostrar (4) como ejercita- 
ción. Se cumple que 


= k 
EX= > X, P;= > k, (k; А) ЭХ Еа езх j 
k k k=0 k! 


ho k = k-1 
= У» ры e= AR e- 
а К! (k-1)! 


k=1 
ay 
= 1D) esh e enh. 
1-0 J! 
El siguiente teorema ofrece más información sobre la influencia del parámetro à en la distribución 
de Poisson. 
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Teorema 2. Sea Y una variable aleatoria distribuida según Poisson con el parámetro 2) >0. Enton- 
ces se cumple que 


1 
d=— (coeficiente de variación). З (5) 
2 
1 
y=— (coeficiente de asimetría). (6) 
ү. 
1 
7 = — (curtosis). (7) 
? 


El siguiente teorema muestra una relación entre la distribución binomial y la de 
Poisson. 


Teorema 3. (Teorema limite de Poisson). 
Se cumple рага k=0, 1, 2.... que 


Л 
= C ) ғ р“ (1-р)" =E еге (8) 


e == const 


A 
Demostración. Con р= — se cumple que 
n 


— ... — k 
(7) ao" ¿Mn 1) (mk 41) с 8), (1-2) 


п- пп 


De aquí se obtiene directamente (8), рага n — œ, р = 0 у np=A=constante con 
A Y | 

lim (-+ ) =е-", 

п- = п 


El teorema (3) muestra que se pueden sustituir las probabilidades b(k;n. p) de una va- 
riable aleatoria distribuida binomialmente con los parámetros n ур, por las p(k; A) de 
una variable aleatoria distribuida según Poisson con el parámetro А =ир, en el caso de un 
número n grande у uno р pequeño; para n>>1 y р<<1 se cumple, por tanto, que 


ЫК; n.p) =p(k; A) con A=np. (9) 


Como los números b(k; n,p) son difíciles de calcular, especialmente para el caso п>>1 
y p<<1, la relación (9) es muy útil para la determinación numérica de probabilidades de 
la distribución binomial. Para el cálculo de las probabilidades de la distribución de 
Poisson, que se necesitan también en la aplicación de (9), son convenientes las fórmulas 
recursivas dadas en el siguiente teorema. 


Teorema 4. Se cumplen las relaciones 


p(k+1; № EV plk; А), к> 0 (10) 
k+1 


р; 9-2 plk; A), kè 1. an 


Las demostraciones se obtienen directamente de (2). 
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Las probabilidades de la distribución de Poisson se encuentran en tablas para valores 
de A moderadamente grandes (ver tabla 2 (12.2), alli А< 20); para mayores valores de A 
conoceremos posteriormente fórmulas de aproximación. 

Nos ocuparemos ahora con la cuestión de cuáles de las variables aleatorias, que se pre- 
sentan en casos de aplicación, poseen una distribución de Poisson. 

Si se puede interpretar una variable aleatoria Y (con un modelo) como el número de 
ocurrencias de un suceso aleatorio A en una larga serie de experimentos independientes, 
en los cuales el suceso А tiene siempre una probabilidad pequeña, entonces Y puede con- 
cebirse de forma aproximada como distribuida según Poisson. La fundamentación mate- 
mática de esto radica еп que el número (aleatorio) de la ocurrencia de un suceso А en 
n repeticiones realizadas independientemente unas de otras de un mismo experimento, po- 
see una distribución binomial con los parámetros n у p, y que en el caso n>>1 ур<<1 
se cumple la proposición (9). (А causa de que p<< 1 se denomina también con frecuencia 
la distribución de Poisson como distribución de los sucesos raros, una denominación evi- 
dentemente poco acertada.) Aquí se establece, de forma conveniente, el parámetro A igual 
a la media aritmética de los valores observados de la variable aleatoria (ver para esto (3) 
y 4.3, observación antes del teorema 1). Por último, nombremos algunos ejemplos con- 
cretos de variables aleatorias, que pueden aceptarse distribuidas según Poisson de acuerdo 
con el modelo anteriormente ilustrado: el número (aleatorio) de llamadas que llegan a 
una central telefónica durante un determinado lapso, el número de roturas de los hilos 
que ocurren en una hilandería, para una determinada clase de tejido, dentro de un pe- 
riodo de tiempo dado; el número de átomos de una sustancia radiactiva que se descom- 
ponen en un intervalo de tiempo fijado, etcétera. 


Concluimos este epigrafe con un ejemplo. 


Ejemplo. Una carga de simientes se vende en paqueticos. Cada paquetico contiene (al- 
rededor de) 1 000 semillas. De pruebas anteriores es conocido que (aproximadamente) el 
0,5% de las semillas no pertenecen a la clase de las simientes. Calculemos la probabilidad 
de que en un paquetico (aleatoriamente elegido) hayan más de cinco semillas que no per- 
tenezcan a la clase de las simientes (suceso B). 

Para ello designe Y el número (aleatorio) de semillas que no pertenecen a la clase de 
las simientes en un paquete. Se supone, de acuerdo con los datos, que Х está binomial- 
mente distribuida con los parámetros п=1 000 y р=0,005. Se cumple.entonces que 

5 
P(B) =Р(Х> 5) =1 -P(X < 5) =1 — P(X =k) 


k=0 


$ 
es > b(k: 1 000, 0,005). 


k=0 


Utilizamos (9) con A=mp=1 000 -0,005=5 y obtenemos 
5 
РВ) =1- Уре) =1-0,616=0,384 


k=0 


(ver tabla 2(12.2)). 
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S: Variables aleatorias continuas 


En este capitulo queremos tratar las variables aleatorias continuas, cuya caracteristica co- 
mún consiste en que el dominio de valores es un intervalo (estando también permitido el 
conjunto R). En relación con variables aleatorias continuas nos interesa particularmeńte 
que la variable aleatoria considerada tome valores de un intervalo arbitrario dado. La 
probabilidad de que una variable aleatoria continua tome un valor determinado cualquie- 
ra, es siempre igual a cero, de modo que no se puede caracterizar la distribución de pro- 
babilidad de una variable aleatoria continua indicando probabilidades particulares. Lue- 
go, las variables aleatorias continuas se caracterizan por el hecho de que la probabilidad 
de tomar valores de un intervalo cualquiera se obtiene como el área entre el eje x y la 
llamada densidad de probabilidad sobre el intervalo considerado. Esto conduce, por tan- 
to, a la aplicación del concepto de integral y en especial, a la utilización de integrales im- 
propias. A 

Observe el lector la analogía de las definiciones, fórmulas y proposiciones de este capi- 
tulo con las correspondientes del capítulo 4; estas solo se diferencian con frecuencia en 
que en lugar del símbolo de sumatoria y de la probabilidad particular están el símbolo de 
integral y la diferencial de la función de distribución, respectivamente. 

Utilizando una teoría general de la integración y la medida, se puede tratar al mismo tiempo varia- 
bles aleatorias discretas y continuas. De esta forma se pueden representar de forma única, mediante 
integrales adecuadas, las probabilidades, el valor esperado, la varianza у los momentos de orden su- 


perior que nos interesan, obteniéndose, naturalmente, tanto en el caso discreto como continuo, las de- 
finiciones, fórmulas y proposiciones dadas en este libro. 


5.1 Definición de variable aleatoria continua 


Definición 1. Una variable aleatoria X se llama continua, si existe una función f, no 
negativa definida sobre el conjunto R de los números reales, al menos continua a trozos, 
de modo que 


Plas Х< b) - [ло dx a) 
para todos los números reales a y b con a< b (fig. 26). 
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Р(а< X< b) 


Y$ Fylg 0 X<) 


v х Figura 26 


Desde el punto de vista del Cálculo de probabilidades, podemos entender que una va- 
riable aleatoria continua X está dada cuando conocemos la función /,. La función f, se 
llama densidad de probabilidad (también: densidad de distribución, densidad o función de 
densidad) de la variable aleatoria X. El teorema siguiente muestra que mediante la fun- 
ción de densidad está fijada realmente la función de distribución de la variable aleatoria 
considerada (ver 4.2, teorema 1). 


Teorema 1. Sea Х una variable aleatoria continua con la función de densidad f,. En- 
tonces se cumplen las proposiciones siguientes: 


1. f4x)> 0 para todo хе В, Глок 


2. Ех) = f SA0 di (fig. 27). 


3. La función de distribución F, es una función continua, que es diferenciable en todos 
los puntos de continuidad de /,, cumpliéndose Е mes =f4x). 


y EN) = РОХ< w) 


Fy(b)—Fla)= Р(а«Х<Ь) 


X% a b x Figura 27 


También aqui dejamos la demostración al lector; se debe observar que para una varia- 
ble aleatoria continua Х y para un número real cualquiera с, se cumple que (ver 4.1 (3)). 


PX =c) - ро dx=0. 


Veamos ahora un ejemplo. 


Ejemplo. Consideremos la función (fig. 28), dada por 


) para a< x< b, 


0 para los demás. 
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Figura 28 


Esta función es no negativa y se cumple que Дх) 4х=1 (fig. 28). Si una variable 


aleatoria continua X posee esta función f como función de densidad (f,=f), entonces se 

cumple que, por ejemplo, 

a+ 
2 


P(X< a) =0, P (< Y< Jr ( Pex< 5) 
2 
Р(Х> Б) =1. 


Рага la función de distribución F correspondiente a esta variable aleatoria (fig. 29) se ob- 
tiene que 


0 para x< а, 

A = y para а< х< arb: 
x b—a 2 

Е(х) = P(X <x) = До а= 
a bx Y a+b 
A 1-2 para < х< Б, 
р-а 
1 рага х2 b. 


La distribución de probabilidad caracterizada por la densidad de probabilidad Го la función 
de distribución F, se denomina distribución triangular. 


y Ka F(x) 


Figura 29 


A continuación damos para algunas funciones especiales g, la relación entre la densidad de 
probabilidad f, de una variable aleatoria continua Х у la f, de la variable aleatoria Y=g8(X). 
Teorema 2. Sea X una variable aleatoria continua con la función de densidad fy. 


1. La variable aleatoria Y=aX+b(ax%0, b reales) posee la función de densidad 


1 x—b 
мәт t (E) —ю<х<о. (2) 
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2. La variable aleatoria Y =X? posee la función de densidad f,. 


0 para x< 0, (3) 


IZA уу +) 
2х 


3. La variable aleatoria У=|Х| posee la función de densidad f, 


ло) = p 


para x>0. 


para x<0 (4) 
Хх) +Л(-х) рага х>0. 


La demostración de este teorema se obtiene fácilmente con el teorema 3 del epigrafe 4.1, 
aplicando la proposición 3 del teorema 1. 


5.2 Características numéricas de las variables aleatorias 
continuas 


Trataremos en este epigrafe el valor esperado y la varianza como características numé- 
ricas importantes de las variables aleatorias continuas. Observe el lector las analogías con 
las definiciones y proposiciones correspondientes del epigrafe 4.3 sobre las características 
numéricas de las variables aleatorias discretas. 


Definición 1. Sea X una variable aleatoria continua con la densidad de probabilidad 
Ју. Entonces el número EX definido por 


EX= [ ху) dx а) 


se llama valor esperado de la variable aleatoria X; aquí se supone que la integral situada 


en el miembro derecho de (1) converge absolutamente; o sea, se cumple que 
f ||) ах < =. 


Ejemplo. Calculemos para la variable aleatoria Y, considerada en el ejemplo del ept 
grafe 5.1, el valor esperado: 
x- — Ja: 


ў 2 2 
ЕХ= | x, odr [| — [1 -— 
Г х a b-a ф-а 2 
a+b 
E 2 ( 2 ( 2) 
= x — ll —— {| -x+ — dx 
A b-a b-a 2 
b 
+ КЕС e ij sat, 
a+b ba b-a 


a+b 
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Los teoremas siguientes son útiles para el cálculo con valores esperados. 


Teorema 1. Sea Х una variable aleatoria continua con el valor esperado ЕХ y sean 
ax0 у b, números reales cualesquiera. Entonces se cumple que 


ElaX+b) =aEX+b. (2) 


Demostración. Si la variable aleatoria X posee la densidad de probabilidad f, en- 
tonces la variable aleatoria Y =aY+b posee la densidad de probabilidad f, 


1 x—b 

a (E) 

la! a 

(ver 5.1, teorema 2, proposición 1). Con esto obtenemos aplicando (1) y [ FA0dt=1 


EY=E(aX+b) = [ A х= f Pe (= ) dx 


la| ^а 


Мх) = 


= f (at+b)f At) dt=a f коа] лда 


=аЕХ-+Ь. 
(Еп el cálculo se debe realizar una diferenciación de casos con respecto al signo de а.) 
Por tanto, se cumple en particular para una variable aleatoria continua X, la relación 
ЕХ-ЕХ) =0. (3) 


Teorema 2. Sea Х una variable aleatoria continua con la densidad de probabilidad 


Jx у 8 una función real continua definida sobre el eje real. Si la integral | я(х)//х) dx 


converge absolutamente (es decir, si se cumple que exl Рх) ах < œ), entonces 


se cumple que 
ЕХ) -Í 800/40 dx. (4) 


Renunciaremos a la exposición (por lo demás no muy sencilla) de la demostración. Sin 
embargo, observamos que para g(x) =x se cumple el teorema 2 sobre la base de la defi- 
nición 1. 

El cálculo del valor ea Eg(Y) sin recurrir al teorema 2, tendría que realizarse 


con la fórmula EXA) = | y f,,, (/)ау, lo cual exige, por consiguiente, el conocimiento de 


la densidad de probabilidad f, ,, de la variable aleatoria 8(1) (ver demostración del teore- 
ma 1). Esto no es necesario utilizando (4), mediante la cual se simplifica considerable- 


mente en muchas ocasiones el cálculo de Eg(X); de aqui se desprende la importancia del 
teorema 2. 


Para g(x) =(x—c)! y g(x) =|x-c} (Q un número natural cualquiera у с un número real 
arbitrario), se obtiene según (4) 


в] (OD ах (5) 
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ңг [| Ix—clf 4x) ах (6) 
respectivamente, siempre y cuando la integral situada en el miembro derecho de (6) sea 
convergente. 

Definición 2. Sea Х una variable aleatoria continua con el valor esperado ЕХ y la 


densidad de probabilidad f, Entonces el número D*X definido por 


D'X=E(X -EX = i (x-EX)? fAx) dx (7) 


se llama varianza (dispersión) de la variable aleatoria Y, suponiéndose la convergencia de 
la integral situada en el miembro derecho de (7). El número 


o,=\ DX (8) 


se llama la desviación estándar de la variable aleatoria X. 


Ejemplo. Calculemos la varianza para la variable aleatoria considerada en el ejem- 


plo del epígrafe 5.1; aquí emplearemos EX == 


р 74 
b: 2 2 
DiX=| (х-ЕХудх)ах= ( 28 ) (:- 
[< PAOR | З 2 b-a b-a 


b-a 
-2f , e 2 (:- E ) iae (b—a)?. 
р-а b—a 24 


Los teoremas siguientes son útiles para el cálculo de la varianza. 


a+b 
2 


х- 


Jas 


Teorema 3. Sea X una variable aleatoria continua con el valor esperado EX, la va- 
rianza D?X y la densidad de probabilidad f, Entonces existe EX? y se cumple que 


DiX= f eto as [ х оа ) ER ER ©) 


La demostración de este teorema se realiza de forma análoga a la del teorema 3(4.3). 


= 
(Formalmente se tiene que sustituir > por , х, рог x y p, por fAx) dx.) 
k 


Teorema 4. Sea X una variable aleatoria continua con la varianza D*X y sean ax0 
y b números reales cualesquiera. Entonces se cumple que 


DYaX+b) =a*D?X. у (10) 
La demostración del teorema 5(4.3) es válida para aquí también. 


Por consiguiente, para una variable aleatoria continua X se cumplen también las rela- 
ciones 


Рх-Х) =D*X (11) 
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рү ———— |=1. (12) 
DX 


Como en el caso de las variables aleatorias discretas, se utiliza también para las continuas 


X 
el concepto centrar para el paso de Ха Х-ЕХ, el de normar para el de Ха 


Х-ЕХ рх 
y el de estandarizar para el de Y а ——— 


y D?X. 
Por último queremos advertir que el valor esperado y la varianza, como para el caso de las variables 
aleatorias discretas, son momentos especiales que caracterizaremos en la definición siguiente. 


Definición 3. Sea Y una variable aleatoria continua соп la densidad de probabilidad fy , j un nú- 
mero natural у с un número real. Entonces se llaman 


yo-o | (хс) х) ах : (13) 


ае) =Е|Х-с -[ |х| Ух) dx (4) 


los momentos ordinario y absoluto de orden j con respecto a с respectivamente, suponiéndose la conver- 
gencia de la integral situada a la derecha en (14). Para c=0 se habla de momentos iniciales y para 
c=EX de momentos centrales (se supone la existencia de EX). 


Las proposiciones sobre momentos dadas a continuación de la definición 3 (4.3), se cumplen también 
para variables aleatorias continuas. De igual modo que para las variables aleatorias discretas, se de- 
finen para las continuas las características numéricas derivadas de los momentos: coeficiente de va- 
riación, coeficiente de аятета y curtosis (ver 4.3, definición 4). 


t, 


5.3 Distribución continua uniforme 


En este y en los siguientes epígrafes trataremos algunas distribuciones de probabilidad es- 
peciales de variables aleatorias continuas. 


Definición 1. Una variable aleatoria continua X se denomina distribuida uniforme- 
mente (sobre el intervalo [a,b], a<b), si la densidad de probabilidad f, tiene la forma 


para a< x< b, 


b-a 


Лх) = a) 
0 para los demás. 


Se dice también que X posee una distribución uniforme (sobre el intervalo [a, b]) o una dis- 
tribución rectangular (fig. 30). 
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Figura 30 


Para la función de distribución F, (fig. 31) se obtiene 


y 0 para x< a, 
Fix) =P(X<x) -f SA0dt= para a< x< b, (2) 
Е —а 
1 para x> b. 
у у= Е (x) 


Figura 31 
Para el valor esperado EY se obtiene 
> b 
EX= f но 0) 
2a a b—a 2 : 
y para la varianza se tiene 
Е ау? 
вх | (х ЕХ)? ух) = f(x- пол dx=- 0-0? (4) 
ха Д 2 b-a 12 


Para una variable aleatoria continua existe una distribución uniforme, si y solo si esta 
toma valores de subintervalos de igual longitud pertenecientes a su dominio de valores y 
que es a su vez un intervalo, con igual probabilidad. En casos de aplicación se acepta que 
una variable aleatoria está distribuida uniformemente, si ésta -hablando sin mucha pre- 
cisión- no prefiere ninguno de los subintervalos de igual longitud (de su dominio de va- 
lores). 


5.4  — Distribución normal 


La distribución normal es una distribución de variables aleatorias continuas, que se utiliza 
mucho en las aplicaciones del Cálculo de probabilidades. Pero antes de referirnos a esto, 
queremos caracterizar la distribución normal mediante la densidad de probabilidad co- 
rrespondiente e investigarla detalladamente. 
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Definición 1. Sea p un número real у с un número positivo. Una variable aleatoria 
continua se denomina distribuida normalmente con los parámetros и y ©, si la densidad 
de probabilidad f, tiene la forma 


2 


155, 29 о <<. (1) 


Р) = 


2x0 


Se dice también que X posee una distribución normal con los parámetros y y с? o una dis- 
tribución N(u, сї) (fig. 32). 


Figura 32 


La demostración de que mediante (1) está definida realmente una densidad de proba- 
bilidad, se basa fundamentalmente sobre la ecuación 


fe @=үк. 


Para la densidad de probabilidad de una variable aleatoria distribuida normalmente 
соп los parámetros џи у 02, se utiliza generalmente la notación q, donde la dependencia 


de ну о? queda expresada en la forma 
1 E 


e "  -o<x<o (2) 


ф(х; и, 62) = 
2160 


La influencia de los parámetros цу 62 sobre la situación y la forma de la curva dada 
por (2), se reconoce de la figura 32; la curva es simétrica con respecto a la recta x=p, 
posee puntos de inflexión en ц-суи +0 y tiene en x= un máximo con el valor de la 


función 


27 в 


Para la función de distribución F, de una variable aleatoria X, distribuida normalmente 
con los parámetros џ у 02, se cumple que 


вы [ а 0) 
- y2n0 -- 


La integración de la función que está en (3) bajo el símbolo de integral no es realizable 
sobre un intervalo cerrado, pero se puede indicar con la exactitud requerida un valor 
aproximado de la integral anterior para todo x, con métodos apropiados de la matemática 
práctica. 
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Para la función de distribución de una variable aleatoria distribuida normalmente con 
los parámetros р y 6*, se utiliza generalmente la notación Ф, donde de forma análoga a 
(2), la dependencia de p у о? queda expresada en 1 forma 

EP 


Ф(х; y, 07) -f olt; p, 03 = de. (4) 


Vno -- 


El teorema siguiente pone de manifiesto la significación teórico-probabilística de los pa- 
rámetros р у 02. 


Teorema 1. Sea Х una variable aleatoria distribuida normalmente con los parámetros 
p y 62. Entonces se cumple que 


EX=p, (5) 
пр =0. (6) 


mp 5 
=E y i e *di=v21 se obtiene que 


Я х 
Demostración. Con t= 


LA 
a 
20 dx 


x= | xfr вх | хФ(х; и, 02) dx= 


2n в 


- E 81 
[ te dt+p — | e *dt=p. 


De esta expresión y con 


[ пе = Г e *di=V2n 


se obtiene que 


DX = Г свода | (х u)? ф(х; и, 62) dx 


El teorema siguiente se refiere a momentos de orden superior de la distribución normal y a carac- 
terísticas numéricas derivadas de los momentos. 


Teorema 2. Sea X una variable aleatoria distribuida normalmente con los parámetros р у 0? En- 
tonces se cumple que 


Mx, (EX) =E(X—EX)**!=0, k=1,2,. (7) 

MEX) =EW -EX ” =1 -3...(2k--1) e, k=1,2,. (8) 

== (coeficiente de .ariación), (9) 
u 

y=0 (coeficiente de asimetría), (10) 

n=0 (curtosis), an 


donde se supone en (9) que #0. 
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El lector puede realizar independientemente la demostración sencilla de estas fórmulas. Añadimos. 
que una variable aleatoria distribuida normalmente con los parámetros џи у o? es simétrica con respecto 
а x=h y aseguramos que todos los momentos de orden impar referidos a и. así como el coeficiente de 
asimetría, son iguales a cero. La curtosis está definida, precisamente, de modo que esta caracteristica 
numérica sea igual a cero para el caso especial de la distribución normal. 


Trataremos ahora la distribución N(0,1). Queremos denotar con Ф la densidad de pro 
babilidad de una variable aleatoria distribuida normalmente con los parámetros 0 y 1, y 
соп Ф, la función de distribución correspondiente. Se cumple (figs. 33 y 34), por tanto, 
que 

Qi 


е, —e<x<o, (12) 
Vr 


Ф(х) =Ф (x; 0,1) = 


ф(х) = ф(х; 0,1) = 


f e de, -0 <Х < ә, (13) 


Figura 33 


Figura 34 


La función Ф (y además q) está tabulada (ver tabla 3 (12.3)); a causa de 
Ox) = ф(х), — © <x<o, (14) 
Ф(—х) =1—D(x), - о <х<ә, (15) 


nos podemos limitar en este caso а argumentos х no negativos. 

Calculemos ahora la probabilidad de que una variable aleatoria X distribuida normal- 
mente con los parámetros 0 y 1, tome valores entre —k y +k (k: número natural). Se 
cumple que: 


P(X|<k) =P(-k<X<k) =0(k) -D(—k) =20(k) —1. (16) 
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к= ф(х) 
< v=o (xu. 0") 


-3 -2 -1 0 1 2 С 


(и ~ За) lu – 2a) lu - a) (u) (и + a) {u +20) (u> 30) Figura 35 


у 


Aquí hemos utilizado (15) y P(X=c) =0 (X, variable aleatoria continua у с, número real). 
Para k=1,2,3 obtenemos, por consiguiente, (ver tabla 3(12.3) y fig. 35). 


P(X[<1) =0,683 =68,3%, (17) 
Р(|Х|< 2) =0.955 =95,5%, (18) 
P(X]<3) =0,997 =99,7%. (19) 


La relación (19) expresa que es prácticamente seguro, que una variable aleatoria distribui- 
da normalmente con los parámetros р=0 y a*=1 tome solo valores entre –3 y +3. Ob 
serve ej lector que іа probabilidad de que una variabie aleatoria distribuida normaimente 
con los parámetros 0 y 1 tome valores de un intervalo arbitrario dado, es positiva, pero 
que es prácticamente imposible que una tal variable aleatoria tome valores de un intervalo 
disjunto соп (х: хе RA-3<x<3). 

Mostraremos ahora como se pueden calcular los valores Ф (х; |, с?) de la función de 
distribución de una variable aleátoria distribuida normalmente con parámetros cuales- 
quiera u у 0? sobre la base de los valores Ф (х) de la función de distribución Ф de una 
variable aleatoria distribuida normalmente con los parámetros и=0 y a*=1. 


Teorema 3. Para todo número real x se cumple que 


op 02 о (228 (20) 
с с 
Ф (х; y, 0)=0 (= ) (21) 
с 
Demostración 
8-8: (ку 
Е ано E е E 
үт с с ұлт 


Ф(х; и. o= Í Ф; y, a?) Е [+= 
5 с 52 o 
Seg к 
-| ourdu=o ( 2) 
да с 
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De aquí se obtiene fácilmente la proposición siguiente: 


Teorema 4. Si X posee una distribución N(u, 67), entonces zE posee una distri- 


bución №0,1). 


Demostración 


Е,_ (х) =P (2 <x ) ихо 
0 д 


=Ф(хс+ц; ц, 0)=0 ESA 
с 


X-u 
o 
siempre el valor esperado cero y la varianza uno; la proposición fundamental del teorema 


(Observemos que en virtud de ЕХ= ц y D?X=0*, la variable aleatoria posee 


а también lo está.) 


4 consiste en que si Х está distribuida normalmente, entonces 


я с 

Estas proposiciones permiten calcular de forma sencilla, utilizando una tabla рага Ф, 

la probabilidad de que una variable aleatoria Х distribuida normalmente con los paráme- 
tros цу 0? tome un valor de un intervalo arbitrario. Se cumple que 


Pla<X<b) =0 (2*)-о (=) (22) 
с с 
En particular, obtenemos рага un número natural k cualquiera que 
P(X—u|<ko) =0(k) -®(-Ю =20(k) —1, (23) 
(ver (16)), de donde se obtiene para k=1,2,3, utilizando (17), (18) y (19) 
P(|X—u|<o) 0,683 =68,3 %, (24) 
P(|Y—yu|<20) 0,955 =95,5 %, (25) 
Р|Х-н|<30) =0,997=99,7 %. (26) 


Luego, es prácticamente seguro que una variable aleatoria distribuida normalmente con 
los parámetros џ у о? tome solo valores entre 4-30 y р+30, o sea, que estén a una dis- 
tancia del valor esperado и menor que el triplo de la desviación estándar с. Esta regla 
se llama regla 3 o (ver fig. 35). 


Queremos tratar ahora la existencia de la distribución normal. Para muchas variables 
aleatorias que aparecen en planteamientos de problemas prácticos, se muestra (por ejem- 
plo, sobre la base de los valores observados de la variable aleatoria considerada especial- 
mente) que la distribución de probabilidad se puede describir muy bien a través de una 
distribución normal. Una caracteristica común de estas variables aleatorias consiste fre- 
cuentemente, en que estas se obtienen mediante superposición aditiva de un número ele- 
vado de efectos aleatorios, independientes unos de otros, teniendo cada uno una influen- 
cia insignificante sobre la variable aleatoria considerada, en comparación con la suma de 
los otros efectos. Posteriormente daremos la fundamentación matemática de que tales va- 
riables aleatorias puedan concebirse, en buena aproximación, distribuidas normalmente 
(ver 7.6). Aquí solo queremos informar. que los errores de observación en un proceso de 
medición (por ejemplo, en mediciones de longitud) y las propiedades de un producto, en 
una fabricación en serie, que se pueden describir numéricamente (por ejemplo, la resis- 
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tencia a la compresión de cubos de hormigón о del contenido de botellas llenadas auto- 
máticamente), se pueden concebir como variables aleatorias distribuidas normalmente. 


Ejemplo. En una cepilladora de metales se producen discos y se investiga su grosor 
Х. Sobre la base de las experiencias existentes, se supone que Х está distribuida normal- 
mente y que para una determinada graduación de la máquina posee el valor esperado 
ЕХ=и=10 тт y la varianza D'Y=0*=(0,02 mm)?. Un disco tiene las medidas adecuadas 
y, por tanto, está en condiciones de ser utilizado, si su grosor está entre 9,97 y 10,05 mm. 
Calculemos la probabilidad de que un disco posea las medidas adecuadas; para ello uti- 
lizaremos (22), (15) y la tabla 3(12.3): 


9,97—10 ) 


10,05—10 
20,97 <Х <10,05) Lo ( 
0,02 0,02 


=Ф(2,5) - D(—-1,5) =Ф(2,5) +Ф(1,5) —1=0,927. 


Considerando los límites de tolerancia dados y la simetría de la distribución normal, es 
evidentemente más conveniente elegir una graduación de la máquina con р=10,1 mm. 
Para una varianza fija 0?=(0,02 mm)? se obtiene el valor 0,955 para la probabilidad bus- 
cada, lo que puede confirmar directamente el lector con (25). 


Queremos concluir nuestras consideraciones sobre la distribución normal con algunas observaciones 
acerca de la historia de esta distribución tan nombrada y utilizada hoy en día. Se puede tomar como 
fecha de nacimiento de la distribución normal el 12 de noviembre de 1733; ese día se publicó un pe- 
queño escrito de A. De Moivre (1667-1754, matemático relevante que fue desterrado de Francia y que 
en Londres se ocupó en dar indicaciones a los jugadores de azar), en el cual la distribución normal, 
incluyendo su ecuación de definición, se deducía como distribución límite de la distribución binomial. 
Las aplicaciones prácticas se obtuvieron solo mediante las investigaciones astronómicas intensivas de 
P.S. Laplace (1749-1827, en 1812 apareció su gran obra sobre el Cálculo de probabilidades) y C.F. 
Gauss (1777-1855) dentro de la teoría de los errores de observación, con lo cual la distribución normal 
fue redescubierta. Por esto, en los países de habla germana se designa la gráfica de la densidad de pro- 
babilidad de la distribución normal como curva de la campana de Gauss. La llamada integral del error 
de Gauss 

х 
2 i 
G(x) = — |e”” di (27) 


n “0 


se relaciona con la función de distribución Ф de la distribución N(0,1) mediante las ecuaciones 


G(x) =20(x/2) -1, 


A 
Фо) = —+— б (= ) (28) 
2 2 № 


A la divulgación de la distribución normal contribuyó decisivamente el científico belga А. Quételet 
(1796-1874), quien fue activo en numerosos campos, y se considera como descubridor de la distribución 
normal para la Biometría y de quien provino también el nombre de distribución normal. Esta denomi- 
nación dio motivo a todo tipo de interpretaciones erróneas. Uno de los méritos de К. Pearson (1857- 
1936, quien se ocupó además intensivamente de la historia de la di. 'bución normal), es haber com- 
probado que en la naturaleza existen variables aleatorias que no estár tistribuidas normalmente y que 
esto no es algo anormal. 


5.5 Distribución exponencial 


La distribución exponencial es una distribución de variables aleatorias continuas, que se 
presenta en casos de aplicación, en particular, en la descripción de tiempos y de diferen- 
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cias de tiempo dependientes de la casualidad. Desde el punto de vista matemático. la 
distribución exponencial se caracteriza por ser muy fácil de manejar. 


Definición 1. Sea а un número positivo. Una variable aleatoria continua X se de- 
nomina distribuida exponencialmente con el parámetro а. si la densidad de probabilidad 
f tiene la forma 


0 para x< 0, 
ГА) = | (1) 

aege “ рага х>0. 
Se dice también que Х posee una distribución exponencial con el parámetro а (fig. 36). 
(El lector debe reflexionar si mediante (1) está definida realmente una distribución de 


probabilidad, es decir, si se cumple en particular que £.0Odx=1). 


хед (х).а=2 
y=f (х).а = 1 


0 1 2 3 х Figura 36 


Para la función de distribución F, de una variable aleatoria Х distribuida exponencial 
mente con el parámetro a (fig. 37), se cumple que 


Fx) = [ лда- | 


0 рага x< 0, 
1-е“ para х> 0. (2) 


у ге А (х).а=2 


0 1 х Figura 37 


Ahora damos el valor esperado y la varianza de una variable aleatoria distribuida ex- 
ponencialmente con el parámetro а >0 donde se muestra también la significación teórico 
probabilística del parámetro a. 


Teorema 1. Sea X una variable aleatoria distribuida exponencialmente con el pará- 
metro а>0. Entonces se cumple que 


EXE E 6) 
a 


1 1 
px (2 ) ; 4) 
a 
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Demostración. Sólo demostraremos (3); la demostración de (4) se desarrolla de for- 
ma similar. Se cumple que 
М b 
+ | e" dx 
o ve 


[= dx= –хе-“ 
0 


1 
= beto — ewp L. 
a a 


Con lim (—b e-%) = lim (e ра го о зет и 
bae 5-- MA a Я 
a 


= b 
Ex | паа [ае dx =lim ES dx= Е 
- o = п a 


Si X, y X, están distribuidas exponencialmente con los parámetros а, y а, respectivamen- 
te, entonces se cumplen en caso de que a, <a, las inecuaciones EX, >EX, y D'X,>D*X,, 
Estas proposiciones coinciden bien con la idea de la distribución exponencial, que se logra 
con la figura 36. 


Ejemplo. Calculemos la probabilidad de que una variable aleatoria X, distribuida ex- 


mn ial 
ponencialmentercon él parámetro а 0 toma un, valor 


rado. Con (3) y (2) se obtiene que 


ue sea menor que el valor espe- 


а 
T gY 55а menor que alor 


al 


АХ <ЕХ) =P (x< A )-=, (+ ) =1—e “=1-e"1=0,63. 
a a 


Esta probabilidad es, por consiguiente, independiente de а y es mayor que 0,5. 


Para concluir, queremos nombrar algunas variables aleatorias que se presentan en casos 
de aplicación, cuya distribución de probabilidad se describe frecuentemente mediante una 
distribución exponencial: duración de llamadas telefónicas, diferencia de tiempo entre la 
ocurrencia de interrupciones en un parque de máquinas o, más general, entre el encuentro 
de clientes en una instalación de servicios, tiempo de vida de elementos de contacto, asi 
como de seres vivientes, etc. Aquí se hará, de modo conveniente, el parámetro a igual 
al inverso de la media aritmética de los valores observados de la variable aleatoria con- 
siderada en cada ocasión (ver (3) y 4.3, observación antes del teorema 1). 


5.6 Distribución y? t Y F 


En este epigrafe presentaremos otras distribuciones de probabilidad de variables aleato- 
rias continuas, que desempeñan una función en la estadística matemática y que en esta 
relación se denominan distribuciones de prueba; se trata de las distribuciones x°, t y F. 
Aquí caracterizaremos en cada ocasión la distribución por medio de la densidad de pro- 
babilidad e indicaremos el valor esperado y la varianza. Renunciaremos a las demostra- 
ciones; el lector interesado las encontrará en otra bibliografía. 


Para la realización práctica de procedimientos estadísticos frecuentemente se necesita 
para un valor р dado (0 <р <1) un valor x, de la variable aleatoria X correspondiente, 
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рага el cual la probabilidad de que Х tome valores mayores que x, sea igual a 1-р 
(P(X>x,) =1-—p). Tales valores se denominan percentiles de orden р, cuya caracteriza- 
ción exacta, utilizando la función de distribución Р, es el objeto de la definición siguiente. 


Definición 1. Sea X una variable aleatoria continua (densidad de probabilidad /,, 
función de distribución F,) y р un número situado entre cero y u `0. Entonces un número 
x, se llama percentil de orden p, si se cumple que (fig. 38) 


Fx) =P. 


Е 1 : 
Un percentil de orden p= — se Пата mediana. 


е 


Figura 38 


Para las distribuciones de prueba que se tratan a continuación, en el capítulo 12 se dan 
algunos percentiles. 


5.6.1 Distribución x? 


Definición 2. Sea т un número natural. Una variable aleatoria continua Х se de- 
nomina distribuida x? соп m grados de libertad, si la densidad de probabilidad f, tiene la 
forma 

0 para x< 0, 
h= m x 
x e para x>0. (2) 


Se dice también que X posee una distribución X? соп m grados de libertad (fig. 39). De- 
notamos el percentil de orden р de la distribución x? con т grados de libertad con x?,,,. 
En (2) T es la llamada función gamma completa definida por 


T(2) -fe е, z>0. (3) 


y 
02 


y=f(x) (т= 6) 


0,1 


0 2 4 6 8 10 12 14 x Figura 39 
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La función gamma se debe a L. Euler (1707-1783), el matemático más productivo, al menos del si- 
glo ХУШ. Aunque Euler perdió la vista de un ojo еп 1735 y en 1766 quedó completamente ciego, es- 
cribió en total 886 manuscritos, entre los cuales se encuentra un número asombroso de libros de texto. 


Para nuestros intereses es suficiente conocer las proposiciones siguientes sobre la fun- 
ción gamma. Se cumple que 


Г(2) =(2-1)T(2-1), para 2>1, (4) 
1 
Г) =1,F (2). (5) 


de donde se obtiene en particular que 
Г(т) =(m—1)!, рага т> 1, me М. (6) 
El teorema siguiente trata sobre el valor esperado у la varianza de la distribución x? 
con т grados de libertad; aqui se aclara también la influencia de т. 


Teorema 1. Si Х posee una distribución x? con m grados de libertad, entonces se cum- 
ple que 


ЕХ=т, (7) 
D'X=2m. (8) 


Advertimos aún que la distribución x? con m=2 grados de libertad es una distribución 
: 1 
exponencial con el parámetro о = 9 (ver 5.5). 


La distribución х? está en estrecha relación con la distribución normal. Para mostrarlo 
demostraremos la siguiente proposición especial. 


Teorema 2. Sea Y una variable aleatoria con una distribución N(0,1). Entonces la va- 
riable aleatoria Y =X? posee una distribución x? con un grado de libertad. 


Demostración. Se cumple (ver 5.1, teorema 2, proposición 2) que 


0 para x< 0, 


LE лә 


2 Vx 


para x>0. 


EG 
i e °y 0(—1) =p(1) se obtiene de de aquí 


Con Ју!) =0(1) = 
2n 


0 para x< 0, 


frx) = 


20 
2 


200 1 e 


1 p) 
= AL — x’ e 
№ \ о (1) 
2 


х 
2 para x>0. 


con lo cual está demostrada la proposición del teorema. 
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La distribución x? fue descubierta en 1876 por R. Helmert (como distribución de la suma de cuadra- 
dos de variables aleatorias independientes con distribución N(0,1)) y vuelta a hallar en 1900 por K. 
Pearson, fundador en Inglaterra de una escuela de Estadística matemática de altos rendimientos: por 
eso esta distribución se denomina de Helmert o de Helmert-Pearson. 


5.6.2 Distribución 1 


Definición 3. Sea т un número natural. Una variable aleatoria continua X se de- 
nomina distribuida t con m grados de libertad, si la densidad de probabilidad f, tiene la 
forma 


r (EE 
2, 0 <х< ә, (9) 


2 
о очи Y A mal * 
Vamr (2) (Pe ? 
2 m 


Se dice también que X posee una distribución t con m grados de libertad (fig. 40). Deno- 
tamos el percentil de orden p de la distribución ; соп m grados de libertad con t,,,,. 


Í, бх) = L 


y 


-4 Figura 40 

En (9), Г es de nuevo el símbolo para la función gamma completa. Observemos que la 
densidad de la distribución £ соп т grados de libertad es una función par (f4—x) =/(х). 
para todo хе В), cuya representación gráfica no se diferencia sustancialmente de la cur- 
va de la campana de Gauss para m grande (ver fig. 33). 

Para m=1 obtenemos especialmente (fig. 40) la función de densidad f, 


AN 1 y 99 <Х < OO; (10) 
t l+x? 
la distribución de probabilidad determinada por ella se denomina también, en honor de 
A.L. Cauchy (1789-1857), distribución de Cauchy. 
El teorema siguiente se refiere al valor esperado y la varianza de la distribución { con 
m grados de libertad. 


Teorema 3. Si Y posee una distribución Е соп m grados de libertad,entonces se cum- 
ple que 


EX=0, m> 2, (11) 
DX =——, m> 3. (12) 
m-2 
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Añadimos que una variable aleatoria que tenga una distribución { con m grados de libertad posee solo 
momentos de orden ks т-—1. Por tanto, la distribución de Cauchy no posee. en particular, ningún va- 
lor esperado. 

La distribución £ fue descubierta e investigada (1908) por W.S. Gosset (1876-1937). quien publicaba 
bajo el seudónimo Student: por esta razón se encuentra también la distribución г con el nombre de dis- 
tribución de Student. 


5.6.3 Distribución F 


Mefiniciáón 4 Sean m v m números naturalas 11да variabla alaatoria continua Y sa 
Definición 4.Sean m, у m, números naturales. Una variable aleatoria continua X se 
denomina distribuida F con (m,.m,) grados de libertad. si la densidad de probabilidad f, 
tiene la forma 
т mi 
m,+m тд 
r { — фит, т 
2 сзи 
EA RO E ES A 
r Р а т рага х>0. (13) 
х) = 1 2 2 
: r (2) Г (2) (m,+m,x) 
2 2 
0 para х< 0. 


Se dice también que X posee una distribución F con (т, m,) grados de libertad (fig. 41). 
Denotamos el percentil de orden p de la distribución F con (m, m,) grados de libertad 


Ер 
Gi 
cd 
09 
08 
07L v= (х) (m = 10, m, = 50) 
ое 
04 те f(x) (n, =4 m = 2) 
o3} 
02 


0 1 2х Figura 41 


Teorema 4. Si X posee una distribución F con (m,. m,) grados de libertad, entonces 
se cumple que 
A (m,> 3), (14) 
m,-2 
2m (m,+m,-2) 


m¡(m,-2)? (m,-4) 


р:х= m,> 5). (15) 
Observemos que el valor esperado no depende de m, y que EX=1 para m, >>1. Ade- 


más. añadimos que para m,< 2 no existe valor esperado y para m, < 4 no existe va- 
rianza. 


La distribución F se debe a В.А. Fisher (1890-1962), uno de los representantes más conocidos de la 
Estadística matemática en Inglaterra. quien además trabajó en el campo de la teoría de la información 
matemática. 
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6. Vectores aleatorios 


Los vectores aleatorios son aquellos cuyas componentes son variables aleatorias. Estos se 
utilizan para representar, desde un punto de vista matemático, algunas características que 
se pueden describir numéricamente en un fenómeno aleatorio. Así, por ejemplo, la lon- 
gitud, ancho y altura de una pieza de trabajo en forma de cubo, producida automática- 
mente, y la talla y peso de un hombre, se pueden describir por medio de un vector alea- 
torio. 

Después de la definición general y la caracterizacion teórico-probabilística de un vector 
aleatorio (epígrafe 6.1), trataremos en el epígrafe 6.2 los llamados vectores aleatorios dis- 
cretos lo cual realizaremos apoyándonos en el tratamiento de las variables aleatorias dis- 
cretas (ver 4.2 y 4.3), y en el epígrafe 6.3 nos ocuparemos de los denominados vectores 
aleatorios continuos, para lo cual partiremos de los estudios sobre variables aleatorias con- 
tinuas (ver 5.1 y 5.2). 

Las características numéricas para la comprensión de la dependencia mutua, de la re- 
lación entre las componentes de un vector aleatorio, son de especial interés; estudiare- 
mos, en particular, los llamados coeficientes de correlación para la dependencia lineal en- 
tre dos variables aleatorias. En el epigrafe 6.4 trataremos el concepto independencia de 
variables aleatorias, que constitutuye un concepto central de toda la teoría de probabili- 
dades. Aquí también deduciremos consecuencias de la independencia, que resultan muy 
útiles para el trabajo práctico con variables aleatorias independientes. Por último, se геа- 
liza en el epigrafe 6.5 la caracterización de la distribución de probabilidad para la suma, 
diferencia, producto y cociente de dos variables aleatorias continuas independientes; los 
teoremas señalados aquí se necesitarán especialmente en la parte correspondiente a la Es 
tadística matemática. 


6.1 Definición general de vector aleatorio 


Realizaremos la exposición de este epigrafe de forma análoga а como lo hicimos en el ері- 
grafe 4.1; en caso necesario el lector puede orientarse otra vez por allí. 
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Definición 1. Sea [Q,A,P] un espacio de probabilidad y sean X,, Х,..., X, (n> 2) va- 
riables aleatorias (sobre [£2,A. Р). Entonces, el n-uplo (X, X,...., Х,) se llama vector 
aleatorio (n-dimensional sobre [$2, A, Pl). 


Nos dedicaremos a continuación a la caracterización de la distribución de probabilidad 
de un vector aleatorio. Para ello, sean х,, х,...., x, números reales cualesquiera. Como 
las X, son variables aleatorias, se cumple que (X, <х,) €A (k=1,2,..., п). A es una < —ál- 


gebra, de modo que se cumple en particular la relación A (X, <х,) €A. En virtud de 
A=1 


loe: xo) <x)= (MN loe: X (0) <х,} 


k=1 


= MN (Х, <х,) 
k=1 
resulta que {оє0: X (0) <х,,.... X (0) <x, JEA. 
Si denotamos abreviadamente el subconjunto (00: X (0) <x,..... X0) <x,) de 9 por 
(X <х, .....Х„<х,„), entonces es razonable hablar de la probabilidad del suceso aleatorio 
(XA <x Y <x,); para esta probabilidad escribiremos de forma abreviada 
P(X, <х,.....Х,<х,). 


Definición 2. Sea [Q,A,P] un espacio de probabilidad y (Х,Х,...,Х,) un vector 
aleatorio. La función F ,,,, у, definida por 


Ext ох Ap Xp Х,) =АХ, < X, Kik Xp Х,<х,) (1) 
(x, € R, k=1,2..... n), 


se denomina función de distribución del vector aleatorio (X,, X,,..., X,) o función de dis- 
tribución conjunta de las variables aleatorias X,, Х,,.... Х,. 


п 


Figura 42 


La función de distribución de un vector aleatorio n-dimensional es, рог tanto, una fun- 
ción real de n variables reales. Por medio de la función de distribución de un vector alea- 
torio se pueden expresar las probabilidades de casi todos los sucesos aleatorios que están 
en relación con este. Así, por ejemplo, se cumple en el caso n=2 (fig. 42) 


Ра< X<b,c< Y <d)=F y p(b, d) -Fx (В. c) Fi nta d) +F y „а, с). (2) 


En el teorema siguiente resumiremos las propiedades de la función de distribución de 
un vector aleatorio. 
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Teorema 1. Sea F la función de distribución de un vector aleatorio о dimensional. 
Entonces se cumple: 


1. Рага todo x,eR (k=1,2,..., п) es 0< Е (хьх,,..., X) < 1. 

2. F es monótona creciente en toda variable x, 

3. F es continua por la izquierda en toda variable x, 

4. lim Кх, Xp.. х,) =0(k=1, 2,..., n), lim _ F(x, Xp.» Х,) =1. 


хк--=> 


La demostración se desarrolla de acuerdo con la del teorema 1(4.1); la dejamos al lec- 
tor. 


Como muestra el ejemplo siguiente, las proposiciones señaladas en el teorema 1 no son suficientes 
para que una función F, con estas propiedades, sea la función de distribución de un vector aleatorio. 


Ejemplo. Consideremos la función dada por 


0 para x+y< 0, 
Ех, y) | 
1 рага x+y>0. 


Evidentemente F posee todas las propiedades señaladas еп el teorema 1. Pero se cumple que 
F(1,1) -F(1,0) -F(0,1) +F(0,0) =1-1-1+0=-1; 


luego en virtud de (2), F no puede ser la función de distribución de un vector aleatorio de dimensión 
n=2. 

El lector interesado puede informarse sobre las condiciones suplementarias que aseguran que una 
función de varias variables sea función de distribución de un vector aleatorio. 


En los capítulos correspondientes a la Estadística matemática trataremos en muchas 
ocasiones funciones de un vector aleatorio (X,,X,,..., X,), por ejemplo, las funciones 
BA XX AX AX Y (ХХ... Х,) = ХХі... +Ха. Ya que nos interesa- 
remos, en particular, por la distribución de probabilidad de estas funciones, es importante 
conocer una clase de funciones g lo suficientemente grande para la cual la función 
EX y Xp... Y), definida sobre N рог [8Y Xp... Xd] (ө) =82(X (0), Хуе)... Ха}, sea 
una variable aeleatoria, o sea, posea una distribución de probabilidad. Para ello damos 
el siguiente teorema sin demostración: 


Теотета2. Sea [9. A, Р) un espacio de probabilidad, (Х,,Х,..., X,) un vector alea- 
torio n-dimensional (sobre [2,A,P]) у g, una función real continua definida sobre el con- 
junto de todos 105 n-uplos de números reales. Entonces la función #(Х,,Х,..., X) definida 
sobre (2 por 


lx, X,.... X Jo) =g (X (0). X, (0)...., X,(0)) (3) 
es una variable aleatoria (sobre [Q, A, P). 


En especial, para las funciones g dadas por 


A х,) =х+х,+... +», 


ORT X) =Х2+х2 +... Ха 


(ху Xp) =X 0 Xp 00 X 


т 


las funciones g(X,.X,,.... X,) definidas sobre 5 son variables aleatorias. 
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A continuación nos limitaremos al caso n=2; рог lo tanto, trataremos los vectores alea- 
torios bidimensionales (X, Y). Muchas veces es de interés, por ejemplo, la distribución de 
probabilidad de la variable aleatoria Y en el marco del vector aleatorio (Y, Y). Se cumple 
(ver 2.4, teorema 1) que 


Ех) =P(X <x) =P(X<x, Y < ә) 
=lim P(X <x, Y<y) =lim Fyn. y). 


jo 


Definición 2. La función de distribución F, dada por 
Е х) = lim Fin. y) (4) 


se llama función de distribución marginal de X, de la distribución conjunta de X y Y; la 
distribución de probabilidad caracterizada se llama distribución marginal de Х de la dis- 
tribución conjunta de Ху Y. (Una definición correspondiente existe para la función de 
distribución marginal F, de Y, de la distribución conjunta de Ху Y.) 

Concluiremos este epigrafe con la observación, de que para un vector aleatorio n-di- 


mensional se pueden considerar evidentemente ( i ) distribuciones marginales de vec- 


tores aleatorios k-dimensionales (k=1,2...., n—1). 


6.2 Vectores aleatorios discretos 


Definición 1. Un vector aleatorio se llama discreto, si puede tomar un número finito 
o infinito numerable de valores. 


En las explicaciones posteriores nos limitaremos al caso de un vector aleatorio bidimen- 
sional. 

Desde el punto de vista del Cálculo de probabilidades, podemos considerar un vector 
aleatorio bidimensional (X, Y) como dado, si están dados а su vez todos los valores (x, y,) 
del vector aleatorio y las probabilidades particulares correspondientes 


p= P(X =x, Y=y,), (1) 


соп las cuales el vector aleatorio (X, Y) toma estos valores. Por ello, se puede caracterizar 
también un vector aleatorio bidimensional (Х, Y) por la llamada tabla de distribución. 


(2) 


р; 


(Aclararemos más tarde el significado de р, y p,.) 
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Para las probabilidades р, se cumple que 
P> 0, D pul в) 
ik 


Los valores de la función de distribución (Е, ,) se obtienen de las probabilidades р, según 


Fi y) =P <x. Y<y) = У Р(Х =x, Y=y,) = > Pio (4) 
іу Е 
Кук <у k у 


extendiéndose la sumatoria sobre todos los Гу К para los cuales se cumple que x,<x y 
у, <y. 

Ahora queremos caracterizar las distribuciones marginales de un vector aleatorio discreto 
(X,Y). La distribución marginal de X es una distribución discreta; X toma los valores х, 
con las probabilidades 


р.= D Pa= Ў Per У-у). 6) 
k k 


De igual forma la distribución marginal de Y es una distribución discreta; Y toma los va- 
lores y, con las probabilidades 


SD нист (6) 


i 


En la tabla de distribución (2) hemos registrado en la última columna los números p, y 
р, en la última fila los que caracterizan las distribuciones marginales de Ху Y. 


Seguidamente nos referiremos a algunas caracteristicas numéricas para vectores aleato- 
rios discretos bidimensionales (Х, Y). Junto al valor esperado у la varianza de las varia- 
bles aleatorias X y Y, en caso de que existan, nos interesa, en especial, una medida para 
expresar la dependencia mutua de lás variables aleatorias X y Y. Trataremos la llamada 
covarianza y, sobre esta base, el denominado coeficiente de correlación. Pero primera- 
mente anotaremos una fórmula para el cálculo del valor esperado de una función de un 
vector aleatorio discreto, de donde se obtienen fórmulas para el valor esperado y la va- 
rianza de una suma de variables aleatorias. 


Teorema 1. Sea (X.Y) un vector aleatorio discreto, que toma los valores (x. y,) con 
las probabilidades p„. y g. una función real continua definida sobre el conjunto de todos 


los pares de números reales. Si la serie У (х, Уул) converge absolutamente (o sea, si 


tk 
> lee, у) [ра <=), entonces se cumple 
ak 
ES.) = D ИХ, ди 0) 
ik 


(ver 4.3, teorema 2). 
Renunciaremos a la exposición de la demostración de este teorema. 
Para g(x.y) =x y g(x,y) =y obtenemos especialmente 


ЕХ= 57 x,p, y EY= Хр. (8) 
k 
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es decir, los valores esperados de las variables aleatorias Ху Y respectivamente, en el 
marco de la distribución conjunta de X y Y, siempre y cuando las series indicadas en (8) 
converjan absolutamente. 

Bajo una condición correspondiente se obtiene рага g(x,y)=(x-EXM? у 
8(x.y) =0:—EY)? la varianza de las variables aleatorias Ху Y respectivamente, еп el 
marco de la distribución conjunta de X y Y, 


р:Х= У (x, -EXV p, y Рр?Ү= > б.-ЕР р й 
Е k 


Trataremos el caso g (x.y) =x+y. 
Teorema 2. Sea (X. Y) un vector aleatorio discreto. Entonces se cumple que 
E(X + Y) =EX+EY. (10) 


suponiéndose la existencia de los valores esperados señalados en el miembro derecho de 
(10). 


Demostración. La función dada por g(x,y) =х+у satisface todas las condiciones 
nombradas en el teorema 1. Por consiguiente, se cumple (7) y con esto 


EX+V= У, скора У a+ У ур, 
к LA 


Lk 


= У х,р, + > Y, 0 =EX+EY. 
1 k 


La validez de la proposición siguiente se obtiene directamente de aquí con el principio de 
inducción completa. 


Corolario 1. Sean X, Х,,.... X, variables aleatorias discretas con los valores espe- 
rados EX, ЕХ,..... ЕХ. Entonces se cumple que 


EXA +Х,+...+Х,) SEX +EX,+...+EX,. (11) 


Observemos que para el cálculo del valor esperado de una suma de variables aleatorias 
discretas, no se necesita su distribución conjunta; para ello es suficiente el conocimiento 
de las distribuciones de probabilidad de cada una de las variables aleatorias. Para la va- 
rianza esto se comporta de otra forma. 


Teorema 3. Sta (X,Y) un vector aleatorio discreto. Entonces se cumple que 
DAX + Y) =22Х+р2У+2(ЕХУ—{ЕХ) (EY), (12) 
suponiéndose la existencia de los sumandos en el miembro derecho de (12). 


Demostración. Utilizando D:Z=EZ?—(EZ)? (ver 4.3, teorema 3) y el corolario 1, 
obtenemos 


DAX + Y) =E(X + Y)?*-(E(X+ Y))? 
= Е(Х+2ХУ+ Y? (EX +EY)? 
=EX 4 2EXY +EY?-(EX)?-UEXN(EY) AE Y)? 
=D"X4+DYY+UEXY AEX (E Y)). 
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Definición 2. Sea (X, Y) un vector aleatorio discreto, que toma los valores (x, y,) con 
las probabilidades p,. Entonces el número definido por 


сом Y) =EX-EX(Y-EN= У -ENY -EV Pa (13) 


ik 
se denomina covarianza de X y Y; aquí se supone, junto a la existencia de EX y EY, la 
convergencia absoluta de la serie situada en el miembro derecho de (13). 
Debemos observar en (13) que, a causa de la continuidad de la función dada por 
8(x.y) =(х-ЕХ) (у-ЕТ), 


la función (Х-ЕЛ)(У-ЕУ) definida sobre Q es una variable aleatoria y que para su valor esperado se 
cumple, sobre la base de las condiciones en la definición 2 y según (7), la relación 


ЕХ-ЕХ)(У-ЕУ) = > (х,-ЕХ)0,-ЕҮ) рь 
ik 


Se comprueba fácilmente que se cumple 


cov (X, Y) =ЕХУ—(ЕХ\(ЕТ), (14) 
de modo que (12) se puede escribir también en la forma 
DAX +Y) =D*X+D?Y +2cov(X, У). (15) 


Evidentemente se cumple que cov(Y,X) =D?X. La matriz (simétrica) 


( Dx cov(X, Y) 


(16) 
covíY, Y) РҮ 


se denomina matriz de covarianza del vector aleatorio (Y, Y). En general, la matriz (b,), 
b,=cov(X, X), asociada a un vector aleatorio discreto n-dimensional, (X,,X,,..., X,), se 
llama matriz de covarianza; en la diagonal principal están las varianzas de las compo- 
nentes del vector aleatorio (b,=cov(Y, X) =D*X). 


Definición 3. Sea (Y, Y) un vector aleatorio discreto que toma los valores (x,> y,) 
con las probabilidades p,. Entonces el número definido por 


EA — _ (ЕЮ, Ер 
рх) = a7 


y DX y DY ES «к-во» Yuen. -EX)?p, y Èo- -ЕУЪ, 


se denomina coeficiente de correlación de X y Y; aquí se supone la convergencia absoluta 
de las series que aparecen еп (17) y, además, que D?X>0 y Р?У>0. 
El teorema siguiente trata sobre las propiedades del coeficiente de correlación. 


Teorema 4. Sea (X, Y) un vector aleatorio discreto con el coeficiente de correlación 
px. 

1. Se cumple que [0(Х, Y) |< 1. 

2. Se cumple que рех, У) 231 si у solo si existen números а #0 у b, tales que Y=aX+b. 


Demostración. Consideremos las variables aleatorias que se derivan de X y Y mediante estanda- 


Р Х-ЕХ Ү-ЕҮ 
rización X= ———— y Y= ——_—— 
DX DY 
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Como EX,=EY,=0 se cumple que 


Х-ЕХ Y-EY 
covíX, Y) =EX, Y =E (EE ) (E) 
y Dx DY 


3 ЕХ-ЕХ)(У-ЕУ) 
Vox yoy 


= Х,У). 
Соп D?X,=D*Y,=1 obtenemos соп esto (ver (15)) 
DAX, + Y) =D*X,+D*Y,12 cov(X,, Yo) 
=2(1+р(Х, Y)). e) 


1. Como la varianza de una variable aleatoria es un número no negativo, resulta de (*): 
1+p(X,Y) > 0, luego р(Х, У) > –1 y AXN<l, o sea, р(Х,У) < 1. 


2.a) Si se cumple que р(Х, Y) = +1, entonces se cumple, según (*), DAY, ТУ.) =0. La variable alea- 
toria X, FY, posee, por tanto, una distribución puntual única (ver 4.3, teorema 4). En virtud de 


EX, FY) =EX,FEY,=0F0=0, 


resulta P(X, F Y,=0) =1, es decir, se cumple que Y,=+X, o expresado de otra manera, Y=a¥ +b con 


DY DY 
а= +———— y b=EYFEX 


Vox Vox 


b) Si se cumple que Y =aX+b(a, Б reales), entonces se cumple que EY =aEX+b (ver 4.3, teorema 1), 
D?Y =a*DYX (ver 4.5, teorema 5) у con esto 


lar y =— "| 


Vox py 


_ | E(X-EX) (aX +b—aEX -b)| 


үргх Мера 


lyo yox 2 


Con esto está demostrado completamente el teorema 4. 


El teorema 4 expresa que el coeficiente de correlación es un número situado entre —1 
y +1 que mide la dependencia lineal de dos variables aleatorias, existiendo dependencia 
lineal si y solo si el valor absoluto del coeficiente de correlación es igual a uno. Retro- 
cederemos al caso p=0 en el epigrafe 6.4; de todas formas, de p=0 no resulta que entre 


las variables aleatorias Ху Y no pueda existir una dependencia funcional, es decir, una 
relación de la forma Y=g(1). 
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1 
Ejemplo. X toma los valores —1, Оу +1 con la probabilidad —. Entonces se 
3 
cumple que EX=0 y D?Y>0. Hagamos ahora Y=X*; se cumple que D*Y>0. La variable 
aleatoria Y - Y=X toma entonces cada una de los valores —1,0 y+1 con la probabilidad 


1 
——, de modo que se cumple que ЕХз=0. Con esto (ver (14). 
cov(X, Y) =EXY —(EXME Y) =ЕХ?-—0=0—0=0 


y, por tanto, р(Х, Y) =0. Sin embargo, existe una dependencia funcional entre X y 


Y(Y=X3. 


6.3 Vectores aleatorios continuos 


Nos limitaremos también a considerar vectores aleatorios bidimensionales; con esto se 
aclara cómo se debe tratar el caso general. 


Definición 1. Un vector aleatorio (X, Y) se llama continuo, si existe una función con- 
tinua no negativa fy y definida sobre el conjunto de todos los pares de números reales, tal 
que se cumple que 


b 
Plas X< b,c< Y< а) - [finas dydx (1) 


ave 


para todos los números reales a,b,c y d con as b y с< d. 


La distribución de probabilidad de un vector aleatorio continuo (Y, Y) está prefijada 
рог la función fy y, que se denomina densidad de probabilidad (densidad de distribución, 
densidad o función de densidad) del vector aleatorio (Y, Y) o densidad de probabilidad 
conjunta de las variables aleatorias Ху Y. Los valores de la función de distribución Fy y, 
se obtienen sobre la base de la densidad de probabilidad fy y, según 


х fr 
Fun y) -Í [ Хх ya ауди. 0) 
La relación (2) entre la función de distribución F,, y, y la densidad de probabilidad fy y, 
se puede expresar también en la forma 


YExn (х, у) 


= х,у). (3) 
ху Lu yQ У) 


De manera semejante que en el tratamiento de los vectores aleatorios discretos, nos ocu- 
paremos primeramente con las distribuciones marginales y nos interesaremos por las ca- 
racterísticas numéricas especiales para los vectores aleatorios continuos; aquí las defini- 
ciones y proposiciones son análogas a las correspondientes del epigrafe 6.2. 

La distribución marginal de la variable aleatoria X en el marco del vector aleatorio 
continuo (Y, У), es una distribución continua; en virtud de 


FAx) =lim Ех пбх, y -f ] Л» nl, y) ауа, 
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la densidad de probabilidad f, de la variable aleatoria Y, que se denomina en este con- 
texto densidad de distribución marginal, está dada por 


Лх) = | Лк ых. У) dy. (4) 


Asimismo. la distribución marginal de Y es una distribución continua: para la densidad 
de distribución marginal f, se cumple que 


Ло) | Feo (X.Y) AX. (5) 


Ahora señalaremos, sin demostración, una fórmula para el cálculo del valor esperado 
de una función de un vector aleatorio continuo. 


Teorema 1. Sea (Y, Y) un vector aleatorio continuo con la densidad de probabilidad 
Луи y sea g una función real continua definida sobre el conjunto de todos los pares de nú- 


meros reales. Si la integral E, y О y)dxdy converge absolutamente (es de 


cir, si se cumple | | |e. »)| Fix по У) dxdy < =), entonces se cumple que 


EsíX, Y) = | [ glx, у) хи (х, y) ахау (6) 


(ver 5.2, teorema 2, y 6.2, teorema 1). 

El valor esperado y la varianza de X y de Y, en el marco de la distribución conjunta 
de Ху Y, se obtienen utilizando las densidades de distribución marginales correspondien- 
tes: 


АЕ ЕҮ= f AY) dy, 0) 
E Joi 
y 

DX = | EX) Y Lo) dx, DY = | OU-ENYA) dy, (8) 


suponiéndose la convergencia absoluta de las integrales que se presentan. 
Queremos dedicarnos ahora al cálculo del valor esperado Е(Х + Y) en el caso continuo. 


Teorema 2. Sea (Y, Y) un vector aleatorio continuo. Entonces se cumple que 
E(X + Y) =EX+EY, (9) 


suponiéndose la existencia de los valores esperados indicados en el miembro derecho de 
(9) (ver 6.2, teorema 2). 


Demostración. La función dada por g(x,y) =x+y satisface todas las condiciones 
nombradas en el teorema 1. Por tanto, se cumple (6) y con esto 


E(X+ Y) = | [ (+) Si nl. у) dxdy 
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Е(Х+Ү)= [ € [ Jana у) dy dx + [ ( f Jan у) х do 


-f оа f y Г) dy 


=ЕХ+ЕҮ. 


Por consiguiente, el valor esperado de una suma de variables aleatorias continuas es, 
como en el caso de variables aleatorias discretas, igual a la suma de los valores esperados. 
Con esto se cumple también la fórmula 


DAX + Y) =D?X + D?Y +UEXY - (EX) (EY)) (10) 


(ver 6.2, teorema 3) para variables aleatorias continuas X y Y, pues en la demostración 
del teorema 3 (6.2) hemos tomado en consideración solo aquellas reglas de cálculo para 
el valor esperado y la varianza, que son válidas también para el caso continuo. 


Apoyándonos en el teorema 1 definiremos, análogamente al procedimiento seguido en el 
caso discreto, la covarianza y el coeficiente de correlación para el caso continuo. 


Definición 2. Sea (X, Y) un vector aleatorio continuo con la densidad de probabili- 
dad fyn. Entonces, el número definido por 


соу(Х, Y) =Е(Х-ЕХ) (Y —EY) -f f (x- EX) O ED xn. y) dxdy (11) 


se llama covarianza de X y Y; aquí se supone, junto a la existencia de EX y EY, la con- 
vergencia absoluta de la integral situada en el miembro derecho de (11). 


Definición 3. Sea (X, Y) un vector aleatorio continuo con la densidad de probabili- 
dad fyn. Entonces el número definido рог. 


| | EX -EV fx n(x. y) хау 
cov (AX, Y) E A 


=—— 8х 
y Dax [ру y fosos | о-в 


se denomina coeficiente de correlación de Ху Y; aquí se supone la convergencia absoluta 
de las integrales que aparecen en (12). 


РХ, (12) 


Como en la demostración del teorema 4(6.2) no fueron empleadas propiedades especiales de las va- 
riables aleatorias discretas, sino solo reglas de cálculo para el valor esperado y la varianza, que también 
son válidas para variables aleatorias continuas, se cumplen las proposiciones del teorema 4(6.2) para 
el caso de variables aleatorias continuas. 


Teorema 3. Sea (X, Y) un vector aleatorio continuo con el coeficiente de correlación 


px, У). 
1. Se cumple que ler р [< 1. 


2. Se cumple que |обХ, Y) [=1 si y solo si existen números а70 y b, tales que Y=aX +b. 
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Cerraremos este epigrafe con el estudio de la llamada distribución normal bivariada, 
que es una distribución de un vector aleatorio continuo bidimensional, muy utilizada en 
las aplicaciones. ES 


Definición 4. Sean y, y и, números reales cualesquiera, с, y o, números positivos ar- 
bitrarios y p un número cualquiera con lol< 1. Un vector aleatorio continuo bidimensional 
(Y, Y) se denomina distribuido normalmente (con los parámetros и, и, ©} o2 р), si la 
densidad de probabilidad Лу, tiene la forma 


fena an * с | (13) 


21 0,0, y 1—p? 


(o <х< ә, —00<y<oo), 


El teorema siguiente nos aclara la significación de los parámetros de una distribución 
normal bivariada (ver epígrafe 5.4). 


Teorema 4. Sea (X, Y) un vector aleatorio distribuido normalmente con los paráme- 
tros Ц, Hz 0), 02, y p. 

1. La distribución marginal de X es una distribución Ми,,02. 

2. La distribución marginal de У es una distribución М (p,,0). 

3. Se cumple que cov(X, Y) =p0,0, y р (X, У) =p. 


Demostración. Para la densidad de distribución marginal /,, fAx) = [ Ло пбх, У) dy, se obtiene 


haciendo la sustitución 


1 =p. х- 
Е £ E 4 ) 
с; С, 


1-р? 
Zi 
y con e ?dt=\ 21% , la relación 
1 -am p E 1 aa 
Lin = ga e de —e № 
2 0, НЙ үт с, 
=Ф(х: ш, с), 


o sea, Y posee una distribución normal con los parámetros џ( = ЕХ) y с? (= Р2Х). Con esto está claro 
que Y posee una distribución normal con los parámetros и(=ЕУ) y о? (=D*Y). 
Para la covarianza 


cov(X, Y) = | [ Xx—ED0—EVN убх, y) dxdy 


x— 


и, 


— ‚ la relación 


S 9, 
КРЗ Сее Еу 
conf ue Y ve 20-97 7 dv Já 


2n \1-рг “7 


? ПЕ r= 
se obtiene, con las sustituciones u= y v= 
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Para la integral interna se obtiene, con la sustitución 


1 
t= ———— (v-pu), 
Й 1-р 


АЕ e 
2 2 } 
con [ e dt=Ņ2r y, además con, | te 4=0, el valor ри\/2п : considerando que 


a = 
Г ? du=\ 2r Я 


se tiene por último que 


cov(X, n— pY2xr Y2n =po,0, 


y con esto p(Y, Y) =p. 


De esta forma podemos afirmar que las distribuciones marginales de una distribución 
normal bivariada son también distribuciones normales. Para concluir, observemos que en 
el caso p=0 se cumple la relación 


Гу пб, У) = ф(х; 1,0) Фу: 1,0), (14) | 


es decir, que en el caso p=0 el producto de las densidades de distribución marginales es 
igual a la densidad de probabilidad conjunta. 


6.4 Independencia de variables aleatorias 


El concepto independencia de variables aleatorias es de gran importancia en la teoría de 
probabilidades. Antes de definir la independencia de variables aleatorias recordemos la 
definición de independencia de sucesos aleatorios: Dos sucesos aleatorios A y B se llaman 
mutuamente independientes, si se cumple que P(4 AB) =P(4)P(B) (ver 3.3, definición 1). 
De manera semejante denominaremos dos variables aleatorias Ху Y mutuamente inde- 
pendientes, si todo suceso aleatorio A, que está en relación con la variable aleatoria X, 
es independiente de todo suceso B que está en relación con la variable aleatoria Y, es de- 
cir, si para cualesquiera хе В y ye В los sucesos (Y <x) y (Y <y) son independientes, у 
se cumple que P(X <x, Y <y) =P(X <x)P(Y <y). 

En esto se basa la definición siguiente del concepto independencia de dos variables alea- 
torias, utilizándose para su formulación la función de distribución conjunta de las varia- 


hlas nlantmeina V У Tnn fssmninann Ja Antara maa n mai an n Tann У. vV 


VIV) GIVOVLaG A y á, y ias 1uUnciones ue gistr ibución MIGLBUIGILS de A y i. 


Definición 1. Sea (X, Y) un vector aleatorio con la función de distribución F xn y las 
funciones de distribución marginales F, y F,. Las variables aleatorias Ху Y se denominan 
(mutuamente) independientes (también: estocásticamente independientes), si se cumple 


que 
Ели, У) =F LO FAN (1 
para todos los números reales x y y. 
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Advertimos que en todos los casos se pueden determinar las funciones de distribución 
marginales de las variables aleatorias Y y Y a partir de la función de distribución con- 
junta de estas variables aleatorias (ver 6.1, definición 2). En caso de independencia de Y 
y Y, el recíproco también es posible; se puede calcular la función de distribución conjunta 
a partir de las funciones de distribución marginales, según (1). 

Los dos teoremas siguientes contienen formulaciones equivalentes de la independencia 
de dos variables aleatorias Y y Y, para el caso en que (Y, Y) posea una distribución dis- 
creta y para el caso continuo respectivamente; estas formulaciones se realizan sobre la 
base de las probabilidades particulares o de las densidades de probabilidad, pueden com- 
probarse fácilmente en la situación concreta. 


Teorema 1. Sea (Y, Y) un vector aleatorio discreto, que toma los valores (х„у,) con 
las probabilidades p,. Las variables aleatorias Y y Y son mutuamente independientes si 
y solo si 


PX =x, У=у,) =P =x) P(Y =y), 
o sea, si se cumple que 
Di =P, P-k 
рага todo Г, k. (2) 


га 


Demostración. a) Sean X y Y mutuamente independientes. Entonces se cumple (1), y para todo 
número positivo = (ver 6.1 (2)) 


P(x; S X <x +E, S Y <y, +6) 
=F ynte, pet) -Е убх +6,ук) Fa р(х) +E ny 
=F ex ¡+€) Fyr te) FA tE) Fy) Fax) F y, tE) +Fr(x) Еу) ` 
(Fx ¡+€) Fo (A) (Еу, +E) –Еу(у,)). 
Para Е +0 se obtiene de agui (ver 2.4, teorema 1 y 4.1 (3)) 
PA=x, Y =y) =P =P =x) POY =y) =D,.P 10 


o sea, se cumple (2). 
b) Cúmplase (2) para todo i,k. Entonces se cumple para números reales cualesquiera x y y 


Fun. y) = > Pk” > рр ( > „)( > ра ЕЕ, 
іх;<х хуқк<у 


ёхі<х Ex¡<x 
Ку, <y kyk<y 


o sea, se cumple (1). 


Teorema 2. Sea (X,Y) un vector aleatorio continuo con la densidad de probabilidad 
Лк y las densidades de distribución marginales f, y fy, Las variables aleatorias X y Y son 
mutuamente independientes si y solo si se cumple 


Lin y) =) Љ0) (3) 
para todos los números reales x y y. 
Demostración. а)Ѕеап Ху Y mutuamente independientes. Entonces se cumple (1) y con esto 
(ver 6.3, (3)) 
Fyn (х,у) SEADFAN) _ dFy(x)dF yy) 
— a аф 


Lane y)= =f) yo) , 


xy 


o sea, se cumple (3). 
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b) Cúmplase (3) para todo xe R y ye R. Entonces se cumple 


x 24 
Fu nos y) -f f Sæ nlu у) dvdu 
р 
-f f и) ло) дуду 
(f sorda) ([ лә) 


=FAX)F Ay), 
o sea, se cumple (1). 
En el teorema siguiente se proporcionan consecuencias fácilmente demostrables de la in- 


dependencia de dos variables aleatorias, que son útiles para el trabajo práctico con varia- 
bles aleatorias independientes. 


Teorema 3. Sea (Y, Y) un vector aleatorio discreto (continuo). con 


2 [ху p< -( f f |х Wo һ(х,у)4хау <}. Entonces se cumple, en el caso de 


que * las variables aleatorias Ху Y sean independientes: 


1. EXY=(EN(EN. 

2. со\(Х, У) = 

3. X. Y) =0. 

4. DAX + Y) =D’X+ DY. 


(En 3 y 4 se supone la existencia y positividad de las varianzas de X y Y.) 


Demostración. Las proposiciones 2, 3 y 4 se obtienen directamente de la proposición 1 (para el 
caso discreto (ver 6.2 (14), (17) y (15)). Por tanto, es suficiente demostrar la proposición 1. 
a) Sea a Y) un vector aleatorio discreto. Entonces se cumple, con el teorema 1 (ver también 6.2 (7) 


para g(x, y) =ху), que 


EXY= > XYP n= > XiYkPi Pk 
ik ik 
-( > =p.) ( 2 121) -EnEn. 
i k 


b) Sea (Y, Y) continuo. Entonces se cumple, según el teorema 2 (ve: 


(6) para 
a(x, y) =xy), que 


EXY= Í f a, n y) dxdy 


-f f XIAN) f AN ахах 
(f моек) (Г м2) ею. 


Por consiguiente, de la independencia de las variables aleatorias resulta que el coefi- 
ciente de correlación p(X, Y) es igual a cero. El recíproco de esta proposición no se cum- 
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ple: de øX, Y) =0 no resulta la independencia de Y у Y (ver para esto el ejemplo al final 
de 6.2; se cumple que p(X, Y) es igual a cero, pero, por еіетріо, 


1 1 2 
=1, У= = — ж — . —=PX=DPY=D, 
PX ) A a PX =1) P( ) 


de modo que Ху Y no son independien:es. 
Definición 2. Sea (Х, Y) un vector aleatorio (discreto o continuo). Si se cumple que 
p(X, Y) =0, las variables aleatorias Х y Y se denominan incorrelacionadas. 


De gran valor es la proposición siguiente sobre la distribución normal bivariada 
(ver 6.3, definición 4), que se obtiene directamente del teorema 2 (ver también 6.3 (14)). 


Teorema 4. Sea (Y, Y) un vector aleatorio que posee una distribución normal. Si las 
variables aleatorias Ху Y están incorrelacionadas (р(Х, Y) =р=0), entonces Ху Y son in- 
dependientes. 


La proposición (4) del teorema 3 se puede extender al caso de un número finito arbi- 
trario de variables aleatorias mutuamente incorrelacionadas, dos a dos. 


Teorema 5. Sean X,, Х,,..., X, variables aleatorias mutuamente incorrelacionadas 
dos а dos (p(X, Х,) =0 рага j*k; j,k=1,2,..., п). Entonces se cumple que 


DAX, +4X 4... +X) =р?Х,+р?Х,+... +D"X,. (4) 


Demostración. Con D'Z=EZ?-—(EZ)?, cov (Y, Y) =EXY AEXM(EY) y la proposición de que el va- 
lor esperado de una suma de variables aleatorias es igual a la suma de los valores esperados de estas 
variables aleatorias, se obtiene 


»( $x) (2x)-E(Èx)) 
== ( > +2 > xx) A 5 ex, 


каа 
3<& 
= Y EXp2 Ў EXX,- (ЕХ)!-2 Y (EX)(EX,) 
о 
Jek jek 
-> (ЕХ{—(ЕХ)?) +2 > (EX, Х,-(ЕХ)(ЕХ,)) 
i=} ikat 
jek 
-> DY +2 У cov(X,X). 
iml д 
Ј< 


Si se cumple ahora que р (X, X,) =0 рага jyk, entonces se tiene que соу (X, X,) =0 para juúk у, por 
tanto, se cumple (4). 


Queremos aclarar ahora, como ampliación de la definición 1. qué se entiende por in- 
dependencia de n variables aleatorias (n: número natural). 


Definición 3. Sea (Х,, X»... X,) un vector aleatorio n-dimensional, con la función 
de distribución F (X,,X,,..., Х,). Las variables aleatorias X,,X,,..., X, se denominan com- 
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pletamente independientes (entre sí) (también: estocásticamente independientes), si se 
cumple que 


Ех... х) Appo х,) =Е, (х) E (х) ...Е,(х,) (5) 


para todos los números reales x,, x,,..., х,; ааш Fy denota la función de distribución mar- 
ginal de X, (¿=1, 2,..., п). 


De la independencia completa de las variables aleatorias X,, Х,..., Х, resulta eviden- 
temente la independencia mutua de ellas tomadas dos a dos; el recíproco de esta propo- 


атс Даа ma за msamba ¿as al ainda dal at 


sición no se cumple (ver е, ејетріо ае срівгае 3. 3). 

Si (X,,X,,.... Х,) es un vector aleatorio discreto о continuo, entonces a la independencia 
completa de las variables aleatorias X,,X,,..., X, es equivalente una proposición análoga 
a la fórmula (2) о (3). 


En el trabajo con variables aleatorias independientes se necesita a veces la proposición 
siguiente, muy evidente en cuanto al contenido, pero que no queremos demostrar. 


Teorema 6. Sean X,,X,,..., X, variables aleatorias independientes y £,,2,..., 8, fun 
ciones reales continuas definidas sobre el conjunto de los números reales. Entonces, 
8(X),8%),..., 8,(X,) son también variables aleatorias independientes. 

Concluiremos este epígrafe con la aclaración de qué se entiende por una sucesión de va- 
riables aleatorias independientes. 


Definición 4. Una sucesión infinita X,,X,,..., X,,... de variables aleatorias se deno- 
mina una sucesión de variables aleatorias independientes, si para todo número natural 
пг 2 las variables aleatorias X,,X,,..., X, son completamente independientes entre sí. 


6.5 Distribución de funciones de variables aleatorias 


En este epigrafe queremos determinar, en lo esencial, la distribución de probabilidad de 
la suma, diferencia, producto y cociente de dos variables aleatorias independientes, para 
lo cual comenzaremos con proposiciones especiales acerca de la distribución binomial 
(ver 4.5) y la de Poisson (ver 4.7). 


Teorema 1. Sean Ху Y variables aleatorias independientes que poseen una distribu- 
ción binomial con los parámetros n, ур, ум, ур, respectivamente. Entonces Z=X+ Y po 
see una distribución binomial con los parámetros n,+n, у р. 


Renunciaremos a la exposición de la demostración, aunque es sencilla; el contenido de 
la proposición está claro si recordamos que la frecuencia absoluta de la ocurrencia de un 
suceso aleatorio A con la probabilidad Р(А) =p, en n repeticiones independientes del ex- 
perimento tomado por base, está distribuida binomialmente con los parámetros n y p 
(ver 4.5, en particular, las explicaciones después de la definición 1). 


Teorema 2. Sean X y Y variables aleatorias independientes que poseen una distribu- 
ción de Poisson con los parámetros A y p, respectivamente. Entonces Z=X+Y posee una 
distribución de Poisson con el parámetro A+, 
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Demostración. Los valores de Z son los números 0,1,2,... Se cumple para 


1=0,1,2,... 


i 
P(Z=1) =P(X + Y=l) = > Р(Х =), Y=1-j) 
350 


1 
= Y PX=)AY=I-D 


z А 

= Y ил) 
E 

-5 Eaa H” LS 
Año dp! 
-iy t 

£ И $ (' Jue 
I! л j 
А+)! 

3 т ect pl, 


о sea, Z posee una distribución de Poisson con el parámetro 1+H; aquí hemos utilizado 
el teorema 1(6.4), la definición de la distribución de Poisson (ver 4.7, la definición 1 y la 
fórmula (2)), la definición del coeficiente binomial y, por último, el teorema del binomio. 


Nos ocuparemos ahora del caso de las variables aleatorias continuas. Primeramente de- 
duciremos una fórmula; la llamada fórmula de descomposición, para la densidad de pro- 


xbabilidad de dos variables aleatorias no necesariamente independientes. 


Teorema 3. Sea (Y, Y) un vector aleatorio continuo con la densidad de probabilidad 
fx y» Entonces, la densidad de probabilidad f, de la variable aleatoria 2 =Х + Y está dada 


por 
SA2) -f fan 2-x)dx, – o <2<00, 
енси Se cumple que 
ЕД2) =P(Z <z) =P(X+ Y <z) = | [sants y) dxdy, 
B 


siendo la región de integración 
B={(x,y): x+y<z}={(x,y) : =% <x<%, =0 <y<z—x). 
De aqui se obtiene (fig. 43) 


FAz) -[ ( | лыкта Ja- [| (frenos —x) dt Jax 
-f (Гола) а, 


de lo que resulta 


РА?) -| fan (,2-Хах. 


(1) 
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EB-B = |(xy):x+y <z} 


CAPA,  ^ Figura 43 


Con la fórmula de descomposición se puede demostrar la siguiente proposición intere- 
sante sobre la distribución normal. 

Teorema 4. Sea (Y, Y) un vector aleatorio que posee una distribución normal (con los 
parámetros џи, 02 0,,p). Entonces 2 = + Y posee una distribución normal (con los pa- 
rámetros ц, +4, y 01401429 0,6). 

No realizaremos la demostráción; del teorema 4 inferimos, en particular, que la suma 
de dos variables aleatorias independientes, que poseen una distribución normal, está tam- 
bién distribuida normalmente. Es notable la validez del recíproco de esta proposición: Si 
la suma de dos variables aleatorias independientes está distribuida normalmente, entonces 
los sumandos poseen también una distribución normal. Esta proposición se debe al mate- 
mático sueco H. Cramer (nacido en 1893), el cual enriqueció también la estadística ma- 
temática con proposiciones importantes. 

En el teorema siguiente caracterizaremos la distribución de probabilidad de la suma, di- 
ferencia, producto y cociente de dos variables aleatorias continuas independientes. 


Teorema 5. Sean Y y Y variables aleatorias continuas independientes, con las den- 
sidades de probabilidad f, y f, respectivamente. 
1. La variable aleatoria continua 2=Х+ Y posee la densidad de probabilidad f, 


SAD -Í FAX) 2-х) dx, – о <2< =. (2) 
2. La variable aleatoria continua Z=X-— Y posee la densidad de probabilidad f, 
ЈА2) -f FA) SfAx—2) dx, – о <2< 9. (3) 
3. La variable aleatoria continua Z=X - Y posee la densidad de probabilidad f, 
Ре sor 
ла) = | — son () dx, -o<z<oo. (4) 
A | ы (=) 


X 
4. La variable aleatoria continua Z= F posee la densidad de probabilidad f, 


FAZ) = | |x| хх) dx, — o <2< %. 6) 
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Demostración. Demostraremos solo la primera proposición; las otras зе obtienea en 
principio de la misma forma. 
Para la densidad /, de la suma Z de dos variables aleatorias continuas Ху Y se cumple 


la fórmula de descomposición /42) = | fyn(x.z-x)dx. A causa de la supuesta inde- 


pendencia de las variables aleatorias X y Y, se cumple que 


San 2-х) =) х) 


(ver 6.4, teorema 2) y con esto 


2) -[ Мх) 2-х) dx. 


Las proposiciones contenidas еп los teoremas siguientes se obtienen aplicando las pro- 
posiciones del teorema 5; necesitaremos de estas más adelante en el tratamiento de mé- 
todos especiales de la Estadística matemática. En estos teoremas aparecen las distribucio- 
nes 2, t y F (ver 5.6) y se motiva también el concepto grado de libertad que encontramos 
en estas distribuciones. 


Teorema 6. Si las variables aleatorias Y y Y son independientes y poseen una distri- 
bución x? con los grados de libertad m, y m,, respectivamente; entonces Z=X+ Y posee 
una distribución x? соп m,+m, grados de libertad. і 


Demostración. Apliquemos la fórmula f7(z) = FAx)fAz—-x)dx.Como Ху Y poseen una 
distribución x?, se cumple (ver 5.6, definición 2) que FAX) =0 para x< Оу que fy (2-x) =0 para z< x. 


De aquí se obtiene, por una parte, que fz (2) =0 para z< 0 y, por otra, que fz(2)= | fax) fy(2-x)dx 
0 
para 2>0. 
Si sustituimos aquí las densidades fy у fp obtenemos que 
ы Sin PTS р с2а 


[ 
ат Рата ачан) 7 
Pr DY 
2 2 


e ex) Е е ах 


SAD) = 


n= = 1 
AÑ Р E ): (2) A (1—9 dt 
Si utilizamos la relación 
1 
Круг 
В(р, 9) -f ela еа O (p>0,9>0), 
0 Гр+9) 
que damos sin demostración, obtenemos en total que 
0 рага z< 0, 
mim z 
JÁZ) = IATA E езг рага 2>0, 


k TA 


o sea, que Z posee una distribución x? con т, +m, grados de libertad. 
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Corolario 1. Si X,,X,..., X, son variables aleatorias independientes, que poseen una 
distribución M(0,1), entonces Z=X?+ M3 +... +? posee una distribución x? соп n grados de 
libertad. 


Demostración. Según el teorema 2(5.6), las variables aleatorias X? (k=1,2,..., п) po 
seen una distribución x? con un grado de libertad; sobre la base del teorema 6(6.4) estas 
son, además, independientes. El resto se obtiene entonces del teorema 6 con el principio 


de inducción completa, debiéndose aún atender a que la independencia de X+ Y y Z re- 
sulta de la independencia (completa) de Y, Y y Z. 


Teorema 7. Si X posee una distribución N(0,1), Y una distribución ў? con m grados 


X А Д 
de libertad y Ху Y son independientes, entonces Z= ———— posee una distribución 
Y 


m 
t con m grados de libertad. 


| Y 
Demostración. De la independencia de Ху Y resulta la de Ху 7=\|-— (ver 6.4, teore- 
m 


ma 6). Luego, por la proposición 4 del teorema 5 se cumple que fz) = Ырк Лх) ах. 


Calculemos primero la densidad de probabilidad /у. Para х>0 se cumple que 


Еях) =P(Y <x) =P (х |08 J-P т =ЕДтх?) 
т 


аЕ х) 
ах 


y con esto (ver 5.1, teorema 1) fyfx) = 


=f mx) 2mx; 


para x< 0 se cumple fyfx) =0. 


De esta forma obtenemos 


ЈК) = f хх?) ГАтх2тх dx 
0 


| 
N 
3 
n] 

3 
A~ 
Na 

S м > 
a * 
х 
Е 
E 
П 
ё 
м 
$ 


m 
2r 2 T Ñ — 
2 
т 
т? a (Zim) 
= а уе 2 "ах 
т 
(0) 
2 
m 
ür "mi, 
ты e“ а. 
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т+1 Е y 
Con Г = t e~ dt (ver 5.6(3)) se obtiene por último 
2 o 


osea, Z= posee una distribución { con m grados de libertad. 


Y 


m 


Teorema 8. Si las variables aleatorias X y Y son independientes y poseen una distri 


bución x? соп m, у т, grados de libertad, respectivamente; entonces Z= -—— posee 


una distribución F con (m,,m,) grados de libertad. m, 


ao < A G 

Demostración. De la independencia de Ху Y resulta la de Y= — y Y=— (ver 6.4, teore- 
m m 
ma 6). Luego, con la proposición 4 del teorema 5 se cumple que { i 


мэ- | || 1/40 dx. 
En virtud de que f(x) =m;fy (тух) y fx) =m,f [myx) (ver 5.1, teorema 2) resulta que 


SAD =тт, |x| Zma Amo) dx. 


Como Ху Y poseen una distribución x’, se cumple (ver 5.6, definición 2) que fy (m,xz)=0 para 
х2< 0 y /у(т,х) =0 рага x <0. 


De aquí se obtiene, por una parte, que ГД2) =0 para 2< 0 y por otra, que 


AZ) mm, [iento dx, para z>0. 
o 


Si sustituimos aquí las densidades f, y fy obtenemos 


aA о А ЗЕЕ has AS E D а 
SAD а [е Ш" (mx) e de 

г (= 2r (2 y 

2 2 

m mmi 

Сы = mm, m,+m2 

m т, 2 оса 
=— x e dx 

EN m 9 т о 
те 

2 2 
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= mim, 
m,+m mar 
Con T (22). [ t Е e™ dt (ver 5.6 (3))se obtiene finalmente, en total 
2 o 


0 para z< 0, 
р == л 
m +m, Jr, 18, А 
2 z 
f= ЕТ para 2>0. 
т; т; 
г { — — (m, +m,z) 
2 2 
X 
O sea, Z= Mı _ posee una distribución F con (m „m,) grados de libertad. 
т, 
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7. Teoremas límites 


Los teoremas límites de la teoría de probabilidades ocupan un lugar central en esta dis- 
ciplina matemática y, en principio, poseen importancia también en la estadística matemá- 
tica; el contenido de estos teoremas son proposiciones acerca del comportamiento límite 
de sucesiones de variables aleatorias, siendo de particular interés de acuerdo con las ne- 
cesidades prácticas, las proposiciones sobre la distribución de la suma de n variables 
aleatorias independientes cuando п — =. 

Los epígrafes 7.1 y 7.2 constituyen una introducción a los teoremas límites de la teoría 
de probabilidades. Para ello tratamos en el epígrafe 7.1 la llamada desigualdad de 
Chebyshev, que desempeña una importante función como medio auxiliar en la demostra- 
ción de teoremas límites especiales, y en el epígrafe 7.2 presentamos los tipos de conver- 
gencia más importantes utilizados en la teoria de probabilidades para sucesiones de va- 
riables aleatorias. Los epígrafes 7.3 y 7.4 están dedicados a la denominada Ley de los 
grandes números. Una ley de los grandes números consiste, hablando sin mucha precisión, 
en la indicación de condiciones suficientes para que la media aritmética de una sucesión 
de variables aleatorias tienda hacia una constante, a medida que crece el número de los 
sumandos. La Ley de los grandes números de Bernoulli, tratada en el epigrafe 7.3, facilita 
una visión más clara y exacta de la relación entre la frecuencia relativa y la probabilidad 
de un suceso aleatorio; el epígrafe 7.4 proporciona una panorámica sobre las versiones 
más generales de la Ley de los grandes números. 

Los epígrafes 7.5 y 7.6 están dedicados al denominado teorema central del límite. Un 
tal teorema consiste, hablando sin mucha precisión, en la indicación de condiciones su- 
ficientes para que la distribución de la suma de una sucesión de variables aleatorias tienda 
hacia la distribución normal, a medida que crece el número de sumandos. El teorema in- 
tegral De Moivre Laplace, expuesto en el epígrafe 7.5, plantea una proposición semejante 
a la del teorema central del límite para una sucesión de variables aleatorias distribuidas 
binomialmente, y constituye la base para una fórmula de aproximación que está destinada 
al cálculo práctico de probabilidades relacionadas con la distribución binomial (parámetro 
п> >1). Por último, el epígrafe 7.6 informa acerca de las versiones más generales del 
teorema central del límite que, en las aplicaciones prácticas, justifican en muchas ocasio- 
nes el hecho de considerar distribuida normalmente una variable aleatoria determinada. 


7.1 Desigualdad de Chebyshev 


La función que desempeña la varianza D?X de una variable aleatoria X, como medida 
para la desviación de los valores de esta variable aleatoria del centro descrito por el valor 
esperado EX, se hace muy clara también cuantitativamente en la desigualdad 


Р (1-1 > {рх )< > (1) 


que зе cumple para todo número natural k. Además, esta desigualdad es muy útil en la 
demostración de las leyes de los grandes números (ver epígrafe 7.3). Deduciremos la de- 
sigualdad (1), que se denomina desigualdad de Chebyshev en honor al importante mate- 
mático ruso P.L. Chebyshev (1821-1894), como corolario del teorema siguiente. 


Teorema 1. Sea Y una variable aleatoria no negativa (o sea, se cumple que 
P(Y> 0) =1) con el valor esperado EY y ô, un número positivo cualquiera. Entonces se 
cumple que 

EY 
P(Y> 8) < a (2) 


o, en una formulación equivalente, 


PY <ô) > LE 6) 


Demostración. Realizaremos la demostración separadamente para variables aleato- 
rias discretas y continuas; el lector debe observar las analogías en el proceder. 

a) Sea Y una variable aleatoria discreta que toma los valores y,> 0, con las probabi- 
lidades p, Entonces se cumple que 


EY= > VPZ > YP? ЭЭ p,=5AY> ô), 
k курэ 5 kiy d 


de donde resulta (2) de inmediato. 


b) Sea Y una variable aleatoria continua соп la densidad de probabilidad /,. Entonces 
se cumple, en virtud de que КУ<0) =0, 


er- | Уи) ду= | YW) dyz frmo» ук AY> ё), 


de donde resulta (2) de nuevo. 


Corolario 1. Sea Х una variable aleatoria con el valor esperado EX y la varianza 
D?X, y € un número positivo arbitrario. Entonces se cumple la desigualdad de Chebyshev 


DX 
P(X-EX|> < — (4) 
€ 
o, en una formulación equivalente, 


P(|X—EX|<e)> 1- 2 (5) 
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Demostración. Hagamos =e? y У=|Х-ЕХ|. Entonces se cumple que 
P(Y> 0) =1,5>0 y EY=E|X—EX'=D*X. Aplicando el teorema 1 obtenemos que 


2 

P dx —ЕХ|*> £) < = Consideremos, además, que el suceso (х -ЕХ|> 52) ocurre si 
e 

y solo si si lo hace el suceso (|Х-ЕХЬ €), con lo cual hemos demostrado (4). 


Observaciones 


1. La desigualdad de Chebyshev solo tiene sentido para aquellas variables aleatorias 
que poseen una varianza (finita). 


2. La forma dada en un inicio de la desigualdad de Chebyshev se obtiene de (4) para 
| DY. 
3. Las desigualdades (2) y (3) y las desigualdades (4) y (5) se cumplen, en particular, 


para 5< EY y =є< YD , respectivamente, pero son evidentes en estos casos. 


En el caso e=3y DY , la desigualdad (5) expresa que para toda variable aleatoria Y 
(con varianza finita), la probabilidad de que tome valores cuya distancia del valor espe- 


rado sea menor que el triplo de la desviación estándar, es por lo menos igual a L, 


P (br-exl<synw )> 5 =0,89. (6) 


Radica en la naturaleza del problema el que una proposición tan general como la de- 
sigualdad de Chebyshev, que no requiere más que el valor esperado y la varianza de la 
distribución de probabilidad de la variable aleatoria considerada, pueda ser muy burda 
en casos especiales. Por ejemplo, en el caso de que X posea una distribución normal, se 


obtiene que Рх -ЕХ |<зүрғх) 0,997 (ver 5.4 (26)). Sin embargo, la desigualdad de 


Chebyshev no se puede mejorar, como muestra el ejemplo siguiente, sin la adopción de 
condiciones adicionales sobre la clase de variables aleatorias considerada. 


Ejemplo. Supongamos que la variable aleatoria X posee los valores —k, К y 0 (k es 
aquí un número arbitrario mayor o igual que 1), y se cumple que 


P(X=-—k) =P(X=k) = RS P(X=0) =1 Е 
2k? k? 
Entonces se cumple que EX=0, D'X=EX =k. =: -2=1 y con esto 
1 
P (1-4 > Dx ) ex > k) =P(X=-—k) +PX =k) = т 


Luego, en la desigualdad de Chebyshev está, en este caso, el signo de igualdad. 


A continuación indicaremos una generalización de la desigualdad de Chebyshev, la llamada desigual 
dad de Kolmogorov. 
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Teorema 2. Sean X,,X,,..., Х„ variables aleatorias independientes con varianza (finita) y sea Е un 
número positivo arbitrario. Entonces se cumple que 


A Dx, 
P (res > (Х,-ЕХ)р :)‹ =—— (7) 
15 кп E Е? 
o, en una formulación equivalente, 
| Se 
р ( A ( > ЦЕХ) <)> pa 6) 
k=1 i=} e 


No demostraremos la desigualdad de Kolmogorov; solo observaremos que para n=1 se obtiene la de- 
sigualdad de Chebyshev. 


7.2 Tipos de convergencia еп la Teoría de probabilidades 


En este epigrafe presentaremos algunas definiciones de convergencia para sucesiones de 
variables aleatorias. Denotaremos siempre con (X,) una sucesión de variables aleatorias 
y con X, otra variable aleatoria sobre el mismo espacio de probabilidad (Q, A,P). 


Definición 1. Se dice que una sucesión (Х.) converge con probabilidad uno (o converge 
casi seguro)a X, si se cumple que 
Plo, ЕЯ : lim X,(o) =X (0) )) =1. (1) 


Para esto escribimos abreviadamente Р (lim Y,=X) =1 у de forma simbólica 


х, 5х, 


Por tanto, la convergencia con probabilidad uno se presenta si el conjunto de todas las 
«ЕЯ, para las cuales la sucesión numérica (Х, (®)) converge al número X(w), posee la 
probabilidad uno, es decir, si el suceso (lim Х,=Х) es un suceso casi seguro о práctica- 


mente cierto. Por esto, la convergencia casi segura en la Teoría de probabilidades se co- 
rresponde, en su esencia, con la convergencia ordinaria de una sucesión de funciones en 
el Análisis. 

El teorema siguiente ofrece una caracterización interesante de la convergencia con probabilidad uno. 


c.s. 
Teorema 1. Se cumple que Х, —> X si y solo si para todo número positivo є se cumple la rela- 
ción 


im Р( Y {шей : |х) -xw |> 0. 2 
л 
kan 


Demostración. Sea =>0 arbitrario. Introduzcamos las notaciones siguientes: 


ле) =([х,-х|> е), B = U Az 
kan 


< 


C=(lim X,=X), С, ® =С^В,6), 
x,-Xb ә. 


De) =(lim sup 
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Entonces se cumple que В, , (є) <B,(e), por consiguiente С,, (€) SC,(£) у, por tanto, (ver 2.4, teo 
rema 1) 


lim P(C (€) =P ( Nic }. 
Aa k=1 


1. Supongamos que se cumple que X, Е; X, o sea, que P(C)=1. Entonces tenemos que A C, E) 
=4 y, por tanto, lim P(C,(c)) =0. De P(B,(c)) =P(C,(8)) resulta que lim P(B,(€)) =0, e ddr se 
cumple (2). 2 

2. Supongamos que se cumpie (2), o sea, que lim РАВ ДЕ) ) =0. Entonces tenemos que D(e) С ВЕ) pa- 
ra n=1,2,... Por consiguiente, se cumple que P(D(E)) =0. De CS U D + resulta que 


a sl c.s. kal 
P(C) =0, o sea, que es P(C) =1, lo que es equivalente a X, — X. 


Definición 2. Se dice que una sucesión (Х,) converge en probabilidad (o: converge es- 
tocásticamente) a X, si para todo número positivo £ se cumple que 


lim Pl(osR*|X,(0) -Xo |<e) =1. (3) 


Para esto escribimos abreviadamente lim РХ.-Х |< є) =1 y de forma simbólic:. 


х, 5x. 


La relación (3) expresa que en la convergencia estocástica«de (Х.) hacia X, la diferencia 
de X, y X en al menos e, es decir, el suceso (dx, -x Ра є), posee una probabilidad que con- 
verge hacia cero рага n =» œ; aquí Е es un número positivo cualquiera. Sin embargo, la 
relación (3) no dice que para un we fijo exista para todo £>0 un número natural n, tal 
que se cumpla |х) —X(0) | <є para todo n> n, es decir, que se cumpla 


lim X,(0) = Хо). 
Entre la convergencia casi segura o prácticamente cierta у la convergencia estocástica 
existe la relación siguiente. 


Teorema 2. Si la sucesión (Y,) converge con probabilidad uno a Y, entonces converge 
también estocásticamente a Х, es decir, se cumple que 


Y EE (4) 


Demostración. Utilicemos las notaciones 1, (=) y B,(£) introducidas en la demostración del teo- 


c.s. 
rema 1. De Y, ——— X resulta, соп el teorema 1, que lim Р(В,(є)) =0. En virtud de A,(s) СВ, (€) 


Х,-ХЬ 8) =0, 


se obtiene de aquí directamente que lim P(4,(£)) =0, es decir, se cumple que lim Р, 


lo cual es equivalente a lim P( Y, —X|<s) =1 y con esto а X, —— Y. 


Definición 3. Si las variables aleatorias Х (п=1,2,...) y X poseen una varianza (fi- 
nita), decimos que la sucesión (Х,) converge en media cuadrática а Х, si se cumple que 
lim EX,-M?=0. (5) 


‹ А Ў c.m.c 
Para esto escribimos simbólicamente Y, ——= X. 
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El contenido de la convergencia en media cuadrática es que lim D? (ХХ) =0, es 


decir, que la sucesión de las varianzas ОХХ,-Х) converge hacia la varianza de una va- 
riable aleatoria distribuida puntualmente (ver 4.3, teorema 4). 

Entre la convergencia en media cuadrática y la convergencia estocástica existe la rela- 
ción siguiente: 

Teorema 3. Si la sucesión (Х,) converge en media cuadrática a Y, entonces converge 
también estocásticamente a X, es decir, se cumple que 


с т.с 


р 
X, — aX, —> Y. (6) 


„-Жру ob 


Demostración. Sea &>0. Utilicemos el teorema 1(7.1) con 5=e? y Ү=|Х 
tenemos 
== г ъа 2 
РХ.-Х|> €) =P(|X,-X|1> £ < РЕЯ A 
E € 
Si se cumple que X, ый Х, es decir, si lim ЕСГ. -Х):=0, entonces resulta que 
lim P(X,-X] 2 5) =0 para todo £>0, es decir, se cumple que X, a, Х. 


Definición 4. Se dice que la sucesión (Х,) converge según las funciones de distribución 
(o: converge en distribución) a Y, si entre las funciones de distribución Е, у Ру se cumple 
la relación 


lim Ру, (х) =F, (х) Y 
en todos los puntos de continuidad x de F, Para esto escribimos de forma simbólica 
EY 


Advertimos expresamente que la proposición (7) no tiene que cumplirse para todo x; 
esta puede que no se cumpla para aquellos valores de x en los cuales la función de dis- 
tribución F, de la variable aleatoria Х no es continua. Pero si la función de distribución 
F, es continua (este es por ejemplo el caso si la variable aleatoria Y es continua), entonces 
la convergencia en distribución de (Х,) hacia Х es equivalente а la convergencia ordinaria 
de la sucesión de funciones (F,) a la función Fy 


Entre la convergencia estocástica y la convergencia en distribución existe la relación 
siguiente: 

Teorema 4. Si la sucesión (Х,) converge estocásticamente a Х, entonces converge 
también en distribución a Х, es decir, se cumple que 


P e.d. 
X, — ХЭХ, — X. (8) 
Demostración, Sea £>0 arbitrario, Hagamos Ap=(x,-Y |< ғ). 
Entonces se cumple, según la premisa, que lim P(A4,) =1. Sobre la base de la fórmula de la proba- 


bilidad total (ver 3.4, teorema 1) se obtiene para un número real x cualquiera 
| Fy (x) =P(X, <х) =P(X, < ХА) P(A) +P(X, <x| A) PA). 
Por una parte, resulta de aquí que Fy (х) < PX, <xlA,) PA) +P(A,), de donde se obtiene con 
РОХ, <x) olx, -X|<e)) 
РА» 


P(X,<xlA,) = 
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PX,<xlA,) _ PX, <) MX <X, +E) MX >X, —E)) 
PA) 
Е ИХ<х+=) 
PA) 
y lim P(4,) =0, la proposición 
pd lina mp Р(х) < FAx+t). 
Por otra parte resulta que 
Fx (2) > PX, < ХА) PA) =P(X,<x) (|х, |<), 
de donde se obtiene con 
Р(Х, <x) =([х.-М<9) +Р[х.-Ж =) > АХ<х-—=) 


tim АЛ, =lim P(x,-x> 6) =0 
la relación к 
lim inf Fy, (x) > Рух). 
Si x es un punto de continuidad de Fy, obtenemos para є +0 las desigualdades 
lim sup Fr (x) < FA) y lim inf Fr (x) > Fax). 
Por tanto, = opk que lim ғу) Р) en todos los puntos de continuidad de Ру, es decir, зе cum- 
ple que X, sa Х. 
Con esto hemos mostrado que la convergencia en distribución es la más débil entre los 
tipos de convergencia aquí definidos. Si la variable aleatoria X posee una distribución 


puntual, o sea, si existe un número c con P(Y=c) =1, y la sucesión (Y) converge en dis- 
tribución a X, entonces ella convergerá también estocásticamente a Х. (Para esto escribi- 


А Р й : х 
mos abreviadamente Y, —— с у decimos que la sucesión (X,) converge estocásticamente 
hacia c.) Se cumple, por consiguiente, el teorema siguiente: 


Teorema 5. Sea X una variable aleatoria distribuida puntualmente. Una sucesión 
(Х.) converge estocásticamente а X si y solo si converge en distribución a X. 


Demostración. Sea Х una variable aleatoria distribuida puntualmente. Sin restric- 
ción de la generalidad podemos suponer que P(Y=0) =1. Sobre la base del teorema 4 solo 
tenemos que demostrar que la convergencia estocástica resulta, bajo esta condición, de la 
convergencia en distribución. 

Por consiguiente se cumple 
0 para x< 0, 


lim F, 0) =Е (х) = f 
"© я 1 рага х>0, 


en todos los puntos de continuidad де F,, es decir, se cumple que 
para x<0, 


lim Е, (х) = | 
а 1 рага х>0. 


Para €>0 arbitrario, se cumple que 
AX <e) =P (Y, <e) PY, < —=) 
=Е,(6) —Fy,(-6+0), 
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de donde para п — œ resulta, sobre la base de las premisas, que 


lim ДАХ 


<=) =1-0=1. 


Esto significa precisamente que la sucesión (X,) converge estocásticamente а 0. 


7.3 Teoremas de Bernoulli y de Poisson (Ley de los grandes 
números) 


En este epigrafe retrocederemos otra vez a la relación entre la frecuencia relativa y la 
probabilidad. La Ley de los grandes números de Bernoulli, que se expone a continuación, 
puede concebirse como una formulación matemática del efecto observado reiteradamente 
en casos concretos de la estabilización de la frecuencia relativa (ver 2.1). : 

Designemos con А un suceso aleatorio que ocurre en el marco de un experimento alea- 
torio con la probabilidad P(4) =p; denotemos con f (4), al igual que antes (ver epigra- 
fe 4.5), la frecuencia relativa aleatoria de la ocurrencia de A en una serie de п repeti- 
ciones independientes de este experimento aleatorio. 


Teorema 1, Para todo número £ se cumple que 
lim PAA) —p|<=) =1 a) 
o, en una formulación equivalente, 
lim РСА) —pl> e) =0, 0) 


es decir, la sucesión (/,(4)) converge estocásticamente hacia р (Ley de los grandes números 
de Bernoulli, 1712). 
(1—p) 


Demostración. Se cumple que Ef (4) = p(n= 1,2,...) у DY,(4) Pt 0 para 
n 


n = х (ver 4.5 (13) у (14)). Aplicando la desigualdad de Chebyshev (ver 7.1, teorema 2, 
y sustituir X por /,(4)) se obtiene, para £>0 arbitrario, la desigualdad 


пуда) -> 9< LP (< 
2 4ne? 


RE 


de donde resulta la proposición (2) del teorema por paso al límite cuando n — oo, 


La Ley de los grandes números de Bernoulli plantea que la probabilidad de que la di- 
ferencia entre la frecuencia relativa JAA) de un suceso А y la probabilidad P(4) =p de 
este suceso sea menor que un número positivo e cualquiera dado, está arbitrariamente cer- 
ca de uno, si el número n de las repeticiones del experimento aleatorio considerado es su- 
ficientemente grande. Esto significa que para un número de experimentos suficientemente 
grande, la probabilidad de que exista una diferencia insignificante entre la frecuencia re- 
lativa y el número p es aproximadamente igual a uno. En particular, la Ley de los gran- 
des números de Bernoulli muestra que todo suceso aleatorio con probabilidad positiva, 
por pequeña que esta sea, ocurre al menos una vez en una serie de experimentos suficien- 
temente grande con una probabilidad situada arbitrariamente cerca de uno. De estas ex- 
plicaciones se deduce por qué se denomina la proposición del teorema 1 como Ley de los 
grandes números. 
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Queremos aún deducir una proposición que contiene al teorema 1 como caso particular: 
la llamada Ley de los grandes números de Poisson. Constituye el punto de partida una se- 
rie de n experimentos aleatorios independientes, en los cuales ocurre un suceso А con una 
probabilidad que, en contraposición con el esquema de experimentos de Bernoulli consi- 
derado anteriormente, depende del número del experimento aleatorio (esquema de expe- 
rimentos de Poisson). Designemos con p, la probabilidad del suceso A en el experimento 
k. Consideremos la variable aleatoria X, tal que 


1 en caso de que el suceso А ocurre en el experimento, 
X= k=1,2,..., п. 


O en caso de que el suceso 4 ocurra en el experimento, 


Entonces se cumple que Р(Х,=1) =р,, Р(Х, =0) =1—p,. Por consiguiente se cumplen las 
ecuaciones 


EX, =1 : p,+0(1 —p,) =P, 


DX, =(1—pJ?p,+(0—p)*1—p,) =p (1 Py) - 


Designemos de nuevo con f,(4) la frecuencia relativa aleatoria de la ocurrencia de A en 
un esquema de experimentos de Poisson. 
Entonces se cumple que 


FA) е8 (Х,+Х,+...+Х», 
n 


de donde (ver 4.3, teorema 1 y 6.2, colorario 1) 
1 EX +... +EX +..+ 
PA y A 
n n n 


y, en virtud de la independencia de las variables aleatorias Х,, Х,,..., X, (ver 6.4, teore- 


ma 5), resulta 
1 DPX +... +р?Х, 
рука) =— D(X, +... +X.) AA 
п п 


_ ра =p) +... +P, —p) 


(+ ) 
< — -ә 0 рага л -ә o ] 
п? 4п 


De la aplicación de la desigualdad de Chebyshev (ver 7.1, teorema 2 y sustituir Х por 
f.(A)) se obtiene directamente la proposición del teorema siguiente. 


Teorema 2. Para todo número positivo e se cumple que 


lim P ( <e )=1 (3) 


o, en una formulación equivalente, 


tim P ( 


(Ley de los grandes números de Poisson). 


116) Pit. +P, 
n 


LA) – 


Pit. +P, 
n 


> e )=0 (4) 
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Verifiquemos, por una parte, que en el caso de que la probabilidad del suceso А sea 
igual en todos los experimentos (р,--р para todo К), se obtiene de aquí la Ley de los gran- 
des ńúmeros de Bernoulli; pero observemos también por otra, que una proposición corres- 
pondiente a la Ley de los grandes números de Bernoulli se obtiene también con premisas 
menos limitantes. El epígrafe siguiente trata sobre otras generalizaciones de la Ley de los 
grandes números de Bernoulli. 


7.4  Generalización de la Ley de los grandes números 


En la deducción de la Ley de los grandes números de Poisson partimos de una sucesión 
especial (Х,) de variables aleatorias, consideramos la sucesión de las medias aritméticas 


1 
— (4, +X,+... +X.) e investigamos la convergencia de esta sucesión. La proposición del 
n 


teorema 2(7.3) se puede formular entonces de modo que la sucesión (Y,) de las medias 
aritméticas centradas У, А 


1 LJ € A ) 1 R 
Y, == )X,-El — УХ, )=— У(Х, ЕХ, a) 
- 2, -E (~ 2, )= 2 EX) 


converge estocásticamente a cero. Este hecho es el fundamento de la definición siguiente. 


Definición 1. Se dice que una sucesión (X,) satisface la Ley de los grandes números, 
si la sucesión (Y,) de las medias aritméticas centradas У, 


Y,= —Sx,-E (5%) =- X,-EX) à 
п ka п kal N kei 


converge estocásticamente a cero. 


En esta formuiación se supone la existencia de los valores esperados que aparecen. Si estos no exis- 
ten, entonces se dice que la sucesión (X,) satisface la Ley de los grandes números si existe una sucesión 


numérica (a,) tal, que la sucesión (Y,), Y,=—- 2 X,—a,. converge estocásticamente а cero. 
N kal 

El próximo objetivo consiste en indicar condiciones suficientes para que una sucesión de 
variables aleatorias satisfaga la Ley de los grandes números. 

Algunas proposiciones importantes en esta dirección se deben a nombrados representan- 
tes de la escuela rusa de la teoría de probabilidades, fundada por P.L. Chebyshev, la cual 
representó el centro de la investigación teórica en este campo al inicio de nuestro siglo (en 
especial se deben a P.L. Chebyshev y su famoso discípulo А.А. Markov (1856-1922), y 
a los matemáticos soviéticos A. Ja. Kinchine (1894-1959) y A.N. Kolmogorov, el funda- 
dor de la teoría axiomática de probabilidades. 


Teorema 1. (Ley de los grandes números de Markov) 
Sea (Х,) una sucesión de variables aleatorias, que satisfacen la condición 


v (5х) 
lim ———=0 (condición de Markov). (2) 
Ao п 
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Entonces la sucesión (X,) satisface la Ley de los grandes números. 
Demostración. Aplicando la desigualdad de Chebyshev (ver 7.1, corolario 1 y.sus- 


еВ 1% а 
tituir X por — Ў Х,) resulta, para £>0 arbitrario, 
Aa 


> 
PY, > e) =P (Зв (Хх) >: ) aa ; 


de donde se obtiene en virtud de la validez de la condición de Markov (2), que 
lim Ру, > =) =0. Luego, la sucesión (У,) converge estocásticamente а cero, o sea, la su- 


cesión (Х,) satisface la Ley de los grandes números. 


Teorema 2. (Ley de los grandes números de Chebyshev) 
Sea (Х,) una sucesión de variables aleatorias incorrelacionadas dos a dos, cuyas varianzas 
están acotadas. (Luego, existe un número M>0, tal que se cumple D?X,< М, para todo 
k.) Entonces la sucesión (Х,) satisface la Ley de los grandes números. 


Demostración. Como las variables aleatorias Х, están incorrelacionadas dos a dos, 
se cumple (ver 6.4, teorema 5) que 


»($x) E ox 
k=1 k=1 


y, por tanto, sobre la base de la premisa, 
р: Ух) Ур, 

7 E мм 

n? n? 7 i 


n? n 


De aquí resulta que se cumple la condición de Markov y con esto hemos demostrado la 
validez de la Ley de los grandes números para la sucesión (Y,), en virtud del teorema 1. 


Como caso especial de la Ley de los grandes números de Chebyshev se obtiene direc- 
tamente la Ley de los grandes números de Poisson (ver 7.3, teorema 2; allí se cumple para 


1 
todo К que DX, =p —p,) < a a causa de que 0< р,< 1). 


En la formulación de otras proposiciones utilizaremos un concepto, que estableceremos 
en la definición siguiente. 


Definición 2. Los elementos de un conjunto de variables aleatorias se denominan 
distribuidos idénticamente, si todas la variables aleatorias de este conjunto poseen una 
misma función de distribución. 


En relación con esta definición llamamos la atención де .que las variables aleatorias dis- 
tribuidas idénticamente no tienen que ser iguales; en cambio, las variables aleatorias igua- 
les poseen una distribución idéntica, como es natural. El lector debe aclararse a sí mismo 
este comportamiento. 


Teorema 3. Sea (X,) una sucesión de variables aleatorias independientes, distribuidas 
idénticamente, con el valor esperado (común) y y la varianza (común) 02, Entonces la su- 
cesión (Х,) satisface la Ley de los grandes números. En particular, la sucesión 
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(= Sr ) de las medias aritméticas de la sucesión (Х,) converge estocásticamente al 


а “esperado (común) и. 


La proposición de este teorema se obtiene directamente de la Ley de los grandes núme- 
ros de Chebyshev; el lector debe verificar esto. En la parte relativa a la Estadística ma- 
temática haremos un empleo provechoso de la proposición del teorema 3. Por último, ad- 
vertimos que la Ley de los grandes números de Bernoulli (ver 7.3, teorema 1) se obtiene 
directamente como caso especial de este teorema. 


Es de notar que se puede renunciar a la condición de la existencia de la varianza. 


Teorema 4. (Ley de los grandes números de Kinchine). Sea (X,) una sucesión de variables alea- 
torias independientes, distribuidas idénticamente, con el valor esperado (común) u. Entonces, la suce- 


sión (X,) satisface la Ley de los grandes números. En particular la sucesión ES ) converge 


estocásticamente a и. 
Queremos exponer aún algunas proposiciones sobre la denominada Ley fuerte de los grandes nú- 
meros. 


Definición 3. Se dice que una sucesión (X,) satisface la Ley fuerte de los grandes números, si la 
sucesión (Y,), 


ER 
Y, Dt EX, 
п kal 


converge casi seguro a cero, suponiéndose la existencia de los valores esperados EX, x (51 estos no exis- 
ten, entonces se dice que la sucesión (Х,) satisface la Ley fuerte de los grandes números, si existe una 
n 


sucesión numérica (a,) tal, que la sucesión (Y,), Y,=— З ¥,—a,„ (converge casi seguro а cero.) 
у j À n k=l я 
Las definiciones 1 y 3 solo se diferencian еп el tipo de la convergencia de la sucesión (Y,) hacia cero; 


en la definición 1 se parte de la convergencia estocástica y la definición 3 se basa en la convergencia 
con probabilidad uno. Como de la convergencia con probabilidad uno resulta la convergencia estocás- 
tica (ver 7.2, teorema 2,), una sucesión (Х,), para 1а cual se cumpla la Ley fuerte de los grandes nú- 
meros, satisface también la Ley de los grandes números. (Para una mejor diferenciación, la Ley de los 
grandes números caracterizada mediante la definición 1, se denomina Ley débil de los grandes núme- 


ros.) 


Los teoremas siguientes, provenientes de A.N. Kolmogorov, indican condiciones suficientes para la 
validez de la Ley fuerte de los grandes números. 


Teorema 5. Sea (Х,) una sucesión de variables aleatorias independientes que satisface la condición 


р, 
— <= (condición de Kolmogorov). (3) 
k? 
kal 


Entonces la sucesión (Х,) satisface la Ley fuerte de los grandes números. 


La demostración de este teorema se basa fundamentalmente en la desigualdad de Kolmogorov 
(ver 7.1, teorema 2), pero no la realizaremos; no obstante, observemos que en el teorema 5 se supone 
la existencia de las varianzas. 

Cada una de las condiciones siguientes, impuestas a una sucesión (Х,) de variables aleatorias, es su- 
ficiente para la validez de la condición de Kolmogorov (3) y en unión con la condición de independen- 
cia de las variables aleatorias X,, X,...., lo es también para la validez de la Ley fuerte de los grandes 
números. 


1. ХХ... están distribuidas idénticamente (con el valor esperado џ y la varianza с). (En este caso 


1 
se obtiene que Уд — p.) 
n k=l 
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2. Existe M>0 tal que D*Y,< М para todo К. 

La última condición mencionada muestra, que en el caso de una sucesión de variables aleatorias in- 
dependientes, la Ley de los grandes números de Chebyshev (ver teorema 2), -y en particular, la Ley 
de los grandes números de Poisson (ver 7.3, teorema 2),- pueden considerarse también como Ley fuerte 
de los grandes números. 

La primera condición nombrada muestra que la Ley de los grandes números formulada en el teorema 
3 y, en particular, la Ley de los grandes números de Bernoulli (ver 7.3, teorema 1), puede pasar tam- 
bién como Ley fuerte de los grandes números. La sucesión (f,(4)) de las frecuencias relativas f,(4), to- 
madas como variables aleatorias, de la ocurrencia de un suceso aleatorio А en una serie de п repeti- 
ciones independientes de un mismo experimento aleatorio, para el cual el suceso A tiene la probabilidad 
P(A) =p, converge рага п — œ no solo estocásticamente, sino también con probabilidad uno.* 

Por último, daremos un teorema muy concluyente referente a la validez de la Ley fuerte de los gran- 
des números para una sucesión de variables aleatorias independientes, distribuidas idénticamente. 


Teorema 6. (Ley de los grandes números de Kolmogorov) 
Sea (X,) una sucesión de variables aleatorias independientes distribuidas idénticamente. 


. Si existe EX =|. entonces la sucesión (Х,) satisface la Ley fuerte de los grandes números. En par- 


ticular. se cumple que — S X, 285 и. 
п га 


2. Si la sucesión (+ 5 X; ) converge hacia una variable aleatoria X, entonces X está distri- 


kai 
buida puntualmente, es т existe un número a, tal que — 5 pisa a. Además, existe enton- 


п рл 
ces EX, y se cumple que ЕХ, =а. 


Renunciaremos a la demostración de este teorema, que es muy difícil; esta se realiza haciendo re- 
ferencia al lema de Borel-Cantelli (ver 3.3, teorema 1). Advertimos aún que, sobre la base de la pri- 
mera proposición del teorema 6, la Ley de los grandes números de Kinchine (ver teorema 4) puede con- 
siderarse también como Ley fuerte de los grandes números. 


7.5 Teorema integral de De Moivre-Laplace 


Por teorema límite se entiende, en la teoría de probabilidades, en lo esencial, una propo- 
sición sobre el comportamiento límite de una sucesión (F,) de funciones de distribución 
de una sucesión dada (Z,) de variables aleatorias. Las leyes de los grandes números, tra- 
tadas еп los epigrafes 7.3 y 7.4, son ejemplos de teoremas límites semejantes; se indican 
condiciones suficientes para que dada una sucesión (Х,), la sucesión (Z,), 


А 
7, Za У (EX), 

Ra 
converja estocásticamente (o incluso, casi seguro) hacia cero, de donde resulta la conver- 
gencia en distribución de la sucesión (Z,) hacia cero (ver 7.2, teorema 4). 

Muchas veces, y de casos semejantes nos ocuparemos en este y en el próximo epigrafe, 
los teoremas límites consisten en la indicación de condiciones suficientes para la conver- 
gencia de una sucesión de funciones de distribución hacia la función de distribución Ф de 
una variable aleatoria distribuida normalmente con los parámetros p=0 y с?=1; con esto 
se obtienen también caracterizaciones significativas de la distribución normal. 


* Esta proposición fue considerada por primera vez en 1909 рог el matemático francés 
E. Borel (1871-1956); por ello se denomina también Ley de los grandes números de Bo- 
rel. 
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En este epígrafe conoceremos el llamado teorema integral de De Moivre-Laplace (A. De 
Moivre, 1730, P.S. Laplace, 1812), que tiene por contenido una proposición semejante pa- 
ra variables aleatorias distribuidas binomialmente. 

Sea A un suceso aleatorio que ocurre en el marco de un experimento aleatorio con la 
probabilidad Д(А) =р,0 <p <1. Denotemos con F, (4), al igual que antes (ver epigrafe 4.5), 
el número aleatorio de la ocurrencia de А en una serie de п repeticiones independientes 
de este experimento. Como sabemos, la variable aleatoria discreta F,(4) está distribuida 
binomialmente con los parámetros n у p, y se cumplen las relaciones EF (4) =np y 
D?F (А) =пр (1—p). Sobre la base de la Ley de los grandes números de Bernoulli (ver 7.3, 
teorema 1), sabemos que la sucesión (Y), 

yapi o ELO p- O FA) ERA) 
n n n 
converge estocásticamente -y según la Ley de los grandes números de Borel (ver 7.4, antes 
del teorema 6) incluso casi seguro- hacia cero cuando n — œ. La función de distribución 
límite es, por consiguiente, la función de distribución de una variable aleatoria distribuida 
puntualmente, o sea, de una variable aleatoria que posee, la varianza cero. Observemos 
que 

DY, =- РА) =p az 

n? n 


y, por tanto, se cumple que 
lim D?Y,=0. 


El comportamiento diferente de la función de distribución limite se hace pausible, de 
esta forma. 
Ahora queremos considerar la sucesión (Z,) que se obtiene mediante estandarización de 
la sucesión (F,(4)), 
y EMO) ЕРДА) _ ЕДА) -np 


\ DF (4) y no(1—p) 


entre las variables aleatorias Z, y las Y, consideradas anteriormente, existe la relación 


2,88 ———, 
yel -—p) 
п 
Р-р) 
(n=1,2,...). Para la sucesión (Z,) зе cumple el teorema siguiente: 


y se cumplen, por tanto, las relaciones EZ,=EY,=0 y D*Z,= 


D*Y,=1 


Teorema 1. (Teorema integral de De Moivre-Laplace) 
Sea (F) una sucesión de variables aleatorias F,, que están distribuidas binornialmente 
con los parámetros n y p (0 <p <1, п=1,2,...). Entonces para la sucesión (F,) de las fun- 
ciones de distribución Е, de las variables aleatorias 2, 


H,—EF, F,—np 


DF, y np —p) 


Z,= 
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se cumple para todo x la relación 


lim Е, (х) =Ф = ] —e de, 0 
PES К Ре 

o sea, la sucesión (Z,) converge en distribución hacia una variable aleatoria con distribu- 
ción N(0,1). 


Una demostración clara de este teorema exige medios auxiliares que sobrepasan los 
marcos de este libro. Por eso, nos limitaremos a aclarar la significación del teorema 1 y, 
en particular, la utilización de esta proposición en casos de aplicación. 

Si X es una variable aleatoria distribuida binominalmente con los paramétros n (n >> 1) 
y p(0<p<1), entonces el cálculo de las probabilidades 


P(X=k) =b(k; n, p) -( A Jra =p) 


es complicado, como habíamos dicho ya en el epigrafe 4.5. Sin embargo, en este caso 
(n>>1), no nos interesamos tanto por tales probabilidades particulares, que son en su 
mayoría muy pequeñas, sino рог los valores que toma Х de un intervalo cualquiera dado. 
Aplicando el teorema 1 se obtiene para Ра< Х <) 


еар E A Cl RIE 
np(1—p) y пр р) y пр(1 —p) 
-0 b—np o a—np 02) 


y пр(1 —p) y np —р) 


(La expresión señalada representa al mismo tiempo una aproximación para las probabi- 
lidades Pla< Х< b), Pla<X< b) y Pla <X <b). 

Una variable aleatoria distribuida binomialmente con los parámetros п(>>1) y 
p(0<p<1) posee aproximadamente una distribución normal con los parámetros р=ир y 
с?2:=пр(1 —р). 


Ejemplo. Una fábrica suministra bombillitos en cartones de 1 000 cada uno. Se sabe 
que la fábrica produce un promedio de bombillitos defectuosos del 3 %. Luego, en un car- 
tón con 1 000 bombillitos es de esperar que alrededor 30 estén defectuosos. Nos intere- 
samos por la probabilidad de que en un cartón se encuentren de 20 a 40 bombillitos de- 
fectuosos. Para ello designemos con X el número (aleatorio) de los bombillos defectuosos 
en un cartón. La variable aleatoria X está distribuida binomialmente con los parámetros 
n=1 000 y p=0,03; se cumple entonces que 


EX=1 000 -0,03=30 y D'Y=1 000 -0,03 (1—0,03) =29,1. 


Para la probabilidad buscada se obtiene que 
< << (1 000 
Р(20< Х< 40) -У РХ =k) -J 0,0341 — 0,03) ! %-*, 
k=20 k=20 k 


131 


Con esta fórmula no se puede calcular de forma práctica la probabilidad buscada. Si uti- 


lizamos la fórmula de aproximación (2) con a=20, b=40. n=1000. Na 
obtenemos que -03 =0, 07. 


POS x< 40) =o | —40-1 000 0.08 Е 20-1 000 -0,03 ) 


yl 000 -0,03 -0,97 yı 000 -0,03 -0,97 


=0 10 _Ф TEN 
y 29,1 29,1 
10 


y 29,1 
=20(1,85) -1=2 -0,97—1=0,94=94 % 


Luego, la probabilidad buscada es aproximadamente de 0,94. 


=20 -1 


7.6 Teorema central del límite 


Para la formulación del teprema integral de De Moivre-Laplace partimos de una sucesión 
de variables aleatorias F„ distribuidas binomialmente. Una variable aleatoria F, distri- 
buida binomialmente con los parámetros n y p se puede representar como suma de n va- 
riables aleatorias discretas Х,,Х,,..., X, independientes y distribuidas idénticamente, 
F,=X,+X,+...+X,, cuya tabla de distribución está dada por 


EN 


(ver en 7.3 las explicaciones posteriores a la formulación de la Ley de los grandes números 


Е, ЕЕ, 


de Bernoulli). Las variables aleatorias Z,= de la sucesión (Z,) conside- 


Р?Е, 
rada en el teorema integral de De Moivre-Laplace, se pueden representar también, debido 


a que ЕЕ, = > ЕХ, y D'F,= Y, D'X,. en la forma 


kal k=l 


УЕ 
2 A а) 
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La proposición del teorema integral de De Moivre-Laplace plantea que la sucesión (Z,), 
formada según (1) de la sucesión (X,) de variables aleatorias independientes, distribuidas 
idénticamente, converge en distribución hacia una variable aleatoria con distribución 
N(0,1). Este hecho constituye el fundamento de la definición siguiente. 


Definición 1. Se dice que una sucesión (Y,) de variables aleatorias independientes 
satisface al teorema central del limite, 51 la sucesión (2,), 


Ух ¿ EX) 
Z, == (1) 
DY, 
k=1 
converge en distribución hacia una variable aleatoria con distribución N(0,1), es decir, si 
para la sucesión (F,) de las funciones de distribución de Z, se cumple la relación 


r p 


Edi as (2) 


lim Р, œ) =Ф(х) -f 


-= V27 


Luego, en esta formulación se supone la existencia de los valores esperados y las varianzas que apa- 
recen, así como que D*X,>0. Si estas magnitudes no existen. entonces se dice que la sucesión (X,) sa- 
tisface al teorema central del límite, si existen sucesiones numéricas (a,) y (b,). Б, 0, tales que la su- 
cesión (2,). 


converge en distribución hacia una variable aleatoria con distribución N(0,1). 


El próximo objetivo consiste en indicar condiciones suficientes para que una sucesión de 
variables aleatorias satisfaga al teorema central del límite. Para ello afirmamos primera- 
mente que, sobre la base del teorema integral de De Moivre-Laplace, una sucesión (X,) 
de variables aleatorias independientes, distribuidas idénticamente en dos puntos, satisface 
al teorema central del límite. A continuación se muestra que se puede renunciar a la con- 
dición de la distribución en dos puntos. 


Teorema 1. Sea (X,) una sucesión de variables aleatorias independientes, distribuidas 
idénticamente y con varianza finita y positiva. Entonces la sucesión (Х,) satisface al 
teorema central del límite. 

Este teorema se debe a J.W. Lindeberg (1922) y P. Lévy (1925); por eso se denomina 
también como Teorema limite de Lindeberg-Lévy. En la estadística matemática este teo 
rema es de gran significación; en él se plantea que las sumas estandarizadas Z, de varia- 
bles aleatorias X, independientes y distribuidas idénticamente, poseen asintóticamente una 
distribución N(0,1) y (es decir, cuando el número de los sumandos tiende a oo), si para 
los sumandos X, exista, junto al valor esperado (común) p, la varianza (común) o? 
(02< œ) y esta es positiva (0?>0). 

Esto significa que las variables aleatorias 


У.Е) Sa, Ух,-п 
k=1 k=1 


Z= = = (4) 


R A я m 
4 Ури, пс oyn 
k=1 
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poseen aproximadamente una distribución N(0,1), para n grande, formulado de otra for. 


ma, que la sumas р) X, poseen aproximadamente una distribución Niny, пс?) para и 
grande. S 


Si en el teorema 1 se renuncia a la condición de que las variables aleatorias distribuidas 


idénticamente X,,X,,.... posean una varianza finita y positiva, o a que las variables alea- 
torias Y, r Х. po estén distribuidas idénticamente. entonces una sucesión ial no satisface, 
por lo general, al teurcma central del límite; sin embargo, existen una serie de proposi- 
ciones que tratan de la validez del teorema central del límite también en el caso de va- 
riables aleatorias no distribuidas idénticamente, por ejemplo, el teorema límite de Lyapu- 
nov y el teorema límite de Lindeberg-Feller. 


Primero presentaremos el teorema límite de Lyapunov (A.M. Lyapunov (1857-1918) fue uno de los 
representantes más significativos de la famosa escuela rusa de teoría de las probabilidades, fundada рог 
P.L. Chebyshev.) 


Teorema 2. Sea (Х,) una sucesión de variables aleatorias independientes, que poseen momentos 
de tercer orden. Si para las sucesiones (b,) y (c,), con 


, Ы ы 
b,= Y Ух, вк ус, = ү Ур», (5) 
kal 


k=1 ka 


respectivamente, se satisface la condición 


b, 
lim —=0 (condición de Lyapunov), (6) 
- e 


la sucesión (X,) satisface al teorema central del límite. 

La condición de Lyapunov se satisface evidentemente, si, además, las variables aleatorias (Xy) están 
distribuidas idénticamente. 

Sobre la base del teorema 2, la validez de la condición de Lyapunov es suficiente para el cumpli- 
miento del teorema central del límite, pero no es necesaria. En particular, no es necesario que existan 
momentos de orden mayor que dos. Lindeberg indicó una condición suficiente para la validez del te- 
orema central del límite, para cuya formulación -a la cual renunciaremos aquí no se necesitan momen- 
tos de orden mayor que dos. De la satisfacción de esta condición -llamada condición de Lindeberg- re- 
sulta el cumplimiento de la condición de Lyapunov, en caso de que existan momentos de tercer orden. 
Además, de la satisfacción de la condición de Lindeberg resulta la proposición 


D? X, 
lim már —— 0. (7) 
Ane 15 кп 
D? X, 


iml 


Esta relación expresa que la varianza de cada sumando Y, es pequeña en comparación con la varianza 


de la suma X,+X,+...+X,, 
Por último, W. Feller demostró (1935) que, suponiendo que (7) se cumpla, para la validez del teorema 
central'del límite es necesaria la satisfacción de la condición de Lindeberg. 


Estos teoremas son de gran importancia, tanto en el aspecto teórico -en especial teórico- 
cognoscitivo como en el aspecto de sus aplicaciones prácticas. De estos teoremas se obtie- 
ne con frecuencia la justificación para describir aproximadamente la distribución de una 
variable aleatoria como una distribución normal. Así, por ejemplo, se puede suponer que 
una variable aleatoria posee una distribución normal si se obtiene mediante superposición 
de un número considerable de efectos aleatorios mutuamente independientes, donde cada 
uno de estos efectos tiene una influencia insignificante sobre la variable aleatoria consi- 


134 


derada, en comparación con la suma de los otros efectos (ver (7)). Con esto, el conoci- 
miento de los valores esperados y las varianzas es lo único que se necesita saber acerca 
de las distribuciones de probabilidad de los efectos aleatorios que intervienen en la super- 
posición. El resultado de una tal superposición se describe muy bien mediante la distri- 
bución normal, si el número de los efectos aleatorios es elevado. 


Estas notables regularidades en los fenómenos aleatorios, que se expresan en forma cuantitativa en 
los teoremas centrales del límite y en forma cualitativa, en las leyes de los grandes números, han con- 
ducido a realizar y homenajear a la distribución normal; reproducimos en una traducción libre una 


Yo no sabría nombrar algo que pudiera impresionar tanto la fantasía como la forma maravillosa del 
orden cósmico, que se expresa en la Ley de los grandes números. Si'los griegos hubieran conocido esta 
ley, la hubieran personificado y adorado como divinidad. Con serenidad y completo desconocimiento 
de si misma ejerce su poder en medio del más salvaje desorden. Mientras más gigantesco es el conjunto 
y mayor la aparente anarquía, tanto más completa es su fuerza. Ella es la ley superior del caos. Tan 
pronto una gran masa de elementos sin reglas se ordenan medianamente, se muestra que una imprevista 
y maravillosa regularidad, sumamente armónica, estaba ya oculta en ellos. 


Con esto concluimos nuestras observaciones sobre la Teoría de probabilidades para de- 
dicarnos a los problemas de la Estadística matemática. 
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8. Estadística descriptiva 


Los métodos y procedimientos de la Estadística descriptiva tienen el objetivo de represen- 
tar y agrupar convenientemente, de forma clara y gráfica, el material de datos obtenidos. 
para expresar de manera comprensible su esencia. Esto se realiza. por una parte. a través 
de listas. tablas y representaciones gráficas у por otra, mediante el cálculo de las llamadas 
medidas estadísticas (por ejemplo, medidas de tendencia central). Con esto solo se обие- 
nen proposiciones sobre el material de datos presentado, y se utilizan métodos y proce- 
dimientos que son bastante independientes de la Teoría de probabilidades. Sin embargo. 
el objetivo esencial en la investigación de un material de datos concretos. de una llamada 
muestra, consiste. en última instancia, en llegar a proposiciones más generales so- 
bre una denominada población. Para esto sirven los métodos y procedimientos de la Es- 
tadística matemática (del capitulo 9 al 11). los cuales se basan en la Teoría de probabi- 
lidades. 

En correspondencia con el objetivo planteado para este libro. nos ocuparemos de forma 
detallada de la Estadística matemática y solamente abordaremos ligeramente los métodos 
y procedimientos utilizados en la Estadistica descriptiva. Así trataremos en el epigrafe 8.1 
los métodos para una característica medible. y en el epigrafe 8.3. los métodos para dos 
carácteristicas medibles. 

Además, presentaremos algunas medidas estadisticas típicas (epigrafes 8.2 y 8.4), las cua- 
les aparecerán de nuevo, en su mayoría, en los capítulos posteriores relativos a la Estadis- 
tica matemática. 


La base de una investigación estadistica es un conjunto de objetos en el cual una o varias 
características deben ser investigadas. En este y en el próximo epígrafe partiremos de que 
se debe investigar una caracteristica medible X, más general, una característica que se 
puede describir numéricamente en n objetos, y designaremos con x,,..., x, los valores 
de medición (números) obtenidos, los cuales no tienen que ser necesariamente diferentes 
unos de otros. 
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Se puede tratar, por ejemplo, del número de puntos obtenidos en un trabajo de control 
por n estudiantes, o de las medidas del cuerpo de n estudiantes de la misma edad, o de 
las temperaturas del mediodía en п lugares diferentes, o tomando un ejemplo de la téc- 
nica, de la diferencia entre el diámetro real y la medida prevista еп n pernos producidos 
en un taladro automático. 


En el marco de la Estadística matemática se considera a Х como una variable aleatoria, y a х,,..., х, 
como valores observados de X en n experimentos concretos. 


Los números X,,..., х, forman una serie de mediciones (de tamaño п), La agrupación 
de los elementos de una scrie de mediciones en la sucesión en que van surgiendo, se de- 
nomina lista originaria. 


Ejemplo 1. La tabla siguiente contiene el resultado de un trabajo de control realizado 
por 100 estudiantes. Aquí se representó el rendimiento de cada uno de esos estudiantes 
de acuerdo con una puntuación determinada, pudiéndose alcanzar como máximo 15 pun- 
tos. 


Tabla 1 


7 6 13 7 11 10 13 8 14 10 

4 8 3 12 14 8 11 10 2 14 
9 8 12 3 9 5 4 9 8 15 
12 9 8 10 6 1 7 11 11 12 

3 4 13 0 6 3 8 6 7 13 

6 13 2 14 4 9 5 9 9 6 

9 10 10 9 10 10 10 12 0 12 

11 7 5 2 12 1 7 13 6 10 
11 9 10 15 11 10 13 8 12 14 

8 12 8 11 13 12 10 14 12 9 


Como se observa ya en este ejemplo, una lista originaria es bastante incomprensible, y 


so resulta ГАоЙ reconocer en ella lo timoo. las martiosularidados Dor aso se ordenan. ga 
no гозаца аси reconocer сл па 10 чрісо, 145 particuialiidadcs. л ох 55$ 5 стаспай, Bo 


neralmente, los valores de medición de la característica y se determina, con ayuda del tar- 
jado la frecuencia absoluta de los diferentes valores. La agrupación de los valores de me- 
dición que se realiza de esta forma se denomina tabla de frecuencia o tabla de distribución 
primaria. 


Ejemplo 2. A continuación se muestra la tabla de frecuencia del material numérico 
considerado en el ejemplo 1. 


Tabla 2 
Puntos | Tarjado | Frecuencia Puntos | Tarjado Frecuencia 
огни j 2 8 ші шй 10 
1 і 1 9 um ma 11 
2 № 3 10 и шї il 13 
3 НИ 4 11 W un 1 9 
4 ШИ 4 12 ии ИН 11 
5 № 3 13 Ши 1и 8 
6 ии 7 14 un 1 6 
7 ЦИ 1 6 15 І 2 
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Como se puede apreciar las tablas de frecuencia son más comprensibles y pequeñas que 
las listas originarias, así como más apropiadas para emitir un juicio sobre la distribución. 
Ел ellas no se pierde información con respecto a las listas originarias. Las tablas de fre- 
cuencia se pueden ilustrar bien mediante representaciones gráficas. 


Ejemplo 3. Ilustraremos la tabla de frecuencia dada en el ejemplo 2 mediante repre- 
sentaciones gráficas (fig. 44). 

Una repr-sentación gráfica como la de la figura 44а se llama polígono escalonado o his- 
tograma; la representación gráfica dada en la figura 44b se denomina polígono de frecuen- 
cia (o abreviadamente: polígono). Si lo que se quiere es comparar varias series de medi- 
ciones de distintos tamaños (en el marco de un mismo problema), se representa sobre el 
eje de las ordenadas en lugar de la frecuencia absoluta, la frecuencia relativa. 


Frecuencia.—. 


012 3456789 101112131415 
Puntos —- 


Frecuencia —+ 
= NY RU с а оо х 


0123456 789 10 11 12 1314 15 
Puntos” Figura 44 


Si se tienen series de mediciones muy grandes, entonces se recomienda realizar una 
agrupación o clasificación de los valores, concentrando algunos consecutivos. Este proce- 
der se basa sobre una partición en clases, es decir, sobre una descomposición en subcon- 
juntos disjuntos, del conjunto de los posibles valores de la característica considerada. 

Los conceptos que se relacionan con el de partición en clases, tales como número de 
clase, amplitud de clase, límites de la clase, medio de la clase, no requieren de más acla- 
raciones. Todo lo que concierne a la técnica de la formación de clases se encuentra en la 
bibliografía. 
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35 
¿30 


25 
20 
10 
== 
0—1 


pa : Es 
122224 56 7 8 9 10 И 12 13 14 15Puntos 


Frecuencia 
л 


m 


Clase 5 Clase 4 Clase 3 Clase 2 Clase 1 
( Nota 5) (Nota 4) (Nota 3) (Nota 2) (Nota 1) a 
35 
30 
\ 25 
3 20 
Q 
5 15 
з 
21 
о 10 
ш 
5 
0 | 2 3 4 $ b 
Notas 7 Figura 45 


Ejemplo 4. Agrupemos el material numérico dado en el ejemplo 1 en correspondencia 
con la siguiente partición en clases. 


Clase 1: 0,1,2,3,4 puntos 
Clase 2: 5,6,7 E 
Clase 3: 8,9,10 и 
Clase 4: 11,12,13 ” 
Clase 5: 14,15 и 


(La evaluación de los rendimientos con las notas 1 hasta 5 constituye la fundamentación 
para esta partición en clases; de aquí, corresponde a la clase 1 la nota 1, a la clase 2 la 
nota 2 y así sucesivamente.) 

Los resultados se resumen en la tabla siguiente -en una denominada tabla de distribu- 
ción secundaria- y en la figura 45 se ilustran gráficamente. 


Tabla 3 
Nota 


Clase Тагадо Frecuencia | Frecuencia 


relativa 


ИО ИИ 
JHT IHT ит 1 

ИТ JHT АНТ IHT НТ SHT ИИ 
JHT IHT AT IHT HT Hi 

JT Ili 


Хт Ф чә Мә 
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Observemos que a la par que se gana en claridad mediante una clasificación del ma- 
terial numérico, surge una pérdida de información (con respecto a la lista originaria o a 
la tabla de distribución primaria). 


8.2 Medidas estadísticas para el estudio 
de una característica medible 


Para valorar una serie de mediciones se introducen con frecuencia magnitudes, las deno- 
minadas medidas estadísticas, que se calculan a partir de los valores de medida. Quere- 
mos ocuparnos, en primier lugar, de las medidas de tendencia central, las cuales сагас- 
terizan a una serie de medidas mediante un único valor, un valor “promedio”, y tratar 
a continuación las medidas de dispersión empíricas, que ponen de manifiesto la desviación 
de los valores de medida en la serie de mediciones. 


8.2.1 Medidas de tendencia central 


Entre las medidas de tendencia central la más conocida es la media aritmética. La media 


aritmética x, de una serie de mediciones х,,..., х, está definida de la forma siguiente: 
ъс >» 0 
п 


tæl 


Si el material numérico es dividido en k clases y el punto medio de la clase j (marca de 
clase) se denota рог u, y con m,, su frecuencia de clase (=número de medidas que se en- 
cuentran en la clase j), entonces se define la media aritmética de la forma siguiente: 
E E 
Xx =— > um, (2) 
n 2 
En la práctica, al hallar la media aritmética, en especial cuando se tiene un número 
grande de medidas, se recomienda el empleo de procedimientos, especialmente concebidos 
para este caso (por ejemplo, mediante la introducción de un valor medio provisional); no 
abordaremos esto con más detalle. 


Ejemplo. Para el material numérico del ejemplo 1 (8.1) se obtiene x,=8,92 (utilizando 
la partición en clases del ejemplo 4 (8.1) se obtiene x,=8,82). 

Otras medidas de tendencia central son la mediana empírica X, la moda empirica х, 
y la media geométrica x, 

Por mediana empírica х, se entiende, en caso de un número impar п, el puntaje situado 
en el medio de una serie de mediciones, ordenadas de mayor a menor; en el caso de un 
número par n, х, es igual a la media aritmética de los dos puntajes que se encuentran еп 
el medio de la serie de mediciones, ordenadas de mayor a menor. (Para el ejemplo con- 
siderado por nosotros se obtiene х, =9.) La mediana está caracterizada entonces, a groso 
modo, porque a cada uno de sus lados se encuentra la mitad de las mediciones. 

Por moda empirica х, se entiende aquel puntaje de una serie de mediciones, el cual apa- 
rece como mínimo, tantas veces como cualquier otro puntaje en la serie. (Para nuestro 
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ejemplo se obtiene como moda empírica x= 10.) Las modas empiricas de una serie de me- 
diciones son los puntajes de mayor frecuencia en la serie de mediciones considerada. 
La medida geométrica х, de una serie de valores х...... х, está dada рог 

о п 

же 
ella está definida solamente para series de mediciones con puntajes positivos. En compa- 
ración con la media aritmética está menos influenciada por los valores extremos de la se- 
rie de mediciones. En la práctica se utiliza frecuentemente en la Estadística económica 
(por ejemplo, en la caracterización de un tiempo de crecimiento promedio). 


8.2.2 Medidas de dispersión 


Una primera idea sobre la dispersión de una serie de mediciones nos la puede dar el re- 
corrido ô, el cual se define como la diferencia del máximo y el mínimo de los puntajes, 
о sea, 

Ха = MÁX (х... 0), 

бо = Xma Xmen CON 

Xin =MÁN {х,,..., х,). (3) 
El recorrido depende solamente de los valores extremos de una serie de mediciones. no 
suministra información alguna, por ejemplo, sobre cómo se concentran los valores en tor- 
no a la media aritmética en la serie de mediciones. Como medidas adecuadas para esto 
se tiene la vgrianza empírica 5, que se define por 


l= m Y (xx)? (4) 


у la raíz cuadrada positiva de esta s, 


says =y 2 (х,-х,)2, i (5) 


que se denomina desviación estándar empirica. 
(Las razones de por qué no se define sí como media aritmética de los cuadrados de las 
desviaciones de los valores de medición de la media aritmética, o sea, como 


1 - - В 

— > (х.х), se aclararán solo en el marco de las explicaciones sobre la Estadística 
n Cia 

matemática ( ver 10.4.2 b).) 
Para el cálculo práctico se utiliza la fórmula (fácilmente deducible de 4) 


ses (25) o 


Si el material numérico se divide en clases, entonces se define la varianza empírica (con 
las notaciones de 8.2.1) como: 


12 У (4-2) m, о 


donde х, se calcula según (2). 
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Ejemplo. Para el material numérico del ejemplo 1 (8.1) se obtiene según (6), con 
> х?= 9216 y > х,=892, la varianza empírica 52, 52=12,72, de donde resulta para 


t=1 i= 
la desviación estándar empirica s, el número 3,57. (Utilizando la partición en clases del 
ejemplo 4 (8.1) se obtiene 5:=13.35 y de ahí se deriva que s,=3,65.) 


Por último queremos llamar la atención sobre el coeficiente de variación empirica (о 
coeficiente de variabilidad) v, para una serie de mediciones, definido para x,*0 рог 


5 
"== (8) 
х 


El coeficiente de variación se utiliza para comparar varias series de mediciones con res- 
pecto a sus desviaciones estándar empíricas, considerando sus medias aritméticas respec- 
tivas y frecuentemente se da en tanto por ciento. 


8.3 Métodos para el estudio de dos características medibles 


En este y en el epigrafe siguiente partiremos de que se van a investigar a la vez dos ca- 
racterísticas medibles Y у Y, en n objetos y designaremos con (x,, y,), ..., (x,, у,) los pares 
de valores de medición que se obtienen (no necesariamente desiguales). 

Se puede tratar, por ejemplo, de los números de puntos obtenidos en dos pruebas de 
Matemática por n estudiantes, o de la talla y el peso de n alumnos de la misma edad, o 
tomando un ejemplo de la economía, del grado de cumplimiento de los planes de produc- 
ción y de financiamiento en.n fábricas). 


En el marco de la Estadística matemática se entiende рог (Y, Y) un vector aleatorio (bidimensional). 
siendo (X,,y),..., (X,,y,) los valores observados de (X.Y) en n experimentos concretos, 


La agrupación de los pares (x, y) según el orden en el cual van surgiendo, se denomina 
nuevamente lista originaria. Racionalmente, también se pasa en este caso, a la confección 
de una tabla de distribución primaria (tabla de frecuencia), la cual para cada posible valor 
(х, у) de (Y, Y) contiene la frecuencia (absoluta o relativa) de la aparición de este par en 
el material numérico considerado (ver el ejemplo siguiente), donde dado el caso se realiza 
una partición en clases para las caracteristicas Ху Y. Para hacer más comprensible lo an- 
terior sirven las representaciones gráficas del material numérico, por ejemplo, mediante 
puntos en el plano x, y o en forma de histogramas (especiales). No profundizaremos más 
y terminaremos este corto epígrafe con un ejemplo. 


Ejemplo. A 100 niños recién nacidos se les midió la talla Y (en cm) y el perímetro 
de la cabeza Y (en cm). Obviemos la lista originaria y demos la tabla de frecuencia co- 
rrespondiente en la cual aparecen redondeados los pares de valores de medición (los cua- 
dros en blanco se interpretan como si tuvieran ceros). 

Como se aprecia, aparecen con más frecuencia, entre los 100 recién nacidos investigados 
niños con una talla entre 48 y 52 cm, y un perímetro de la cabeza, entre 33 y 36 cm. Con- 
trariamente, aparecen muy pocos niños редис"... гал cs) que presenten un gran (peque- 
_ño) perímetro de la cabeza. 


r 
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Tabla 4 


8.4 Medidas estadísticas para el estudio de dos 
características medibles 


El objetivo de medir las características X y Y a la vez, en n objetos, consiste en ganar cla- 
ridad sobre si existe relación entre ellas y en qué medida se da esta relación. En este epí- 
grafe queremos introducir dos medidas estadísticas especiales, la denominada covarianza 
empírica y el llamado coeficiente de correlación empírico. 

Para esto, sean (x,, y,),..., (Xw y,) los resultados de las mediciones de dos características 
Ху Y en n objetos. Denotemos con x, y con 5, la media aritmética y la varianza em- 
рігіса respectivamente de la serie formada por las componentes x: Xp +=» Хи. El mismo sig- 
nificado se le asigna a y, y a s, para la serie de valores formada por las componentes 
У: У»... Yy Estas medidas estadísticas no dicen nada, naturalmente, sobre la dependencia 
mutua de Ху Y. Para valorar el comportamiento de Ху Y en este sentido es apropiado 
el uso de la covarianza empírica 5„„ que se define de la forma siguiente: 

A 
а= —— Y 4-3) 6-9. a 


n-1 


im] 
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Se aprecia claramente, que 5, „ es positiva, cuando a valores grandes de x se hacen co 
rresponder valores grandes de y y a valores pequeños de х. valores pequeños de y. Ade- 
más, se reflexiona de forma análoga que la covarianza empírica s,,, es negativa, cuando 
se hacen corresponder a valores grandes de х. pequeños valores de y y viceversa. 

Una medida estadística más potente para la dependencia mutua de X y Y se obtiene cuan- 
do se relaciona la covarianza empirica con el producto de las desviaciones estándar em- 


рігісаѕ s, =Y si, y s, ,=V 37, . a través del coeficiente de correlación empírico, definido 
por: 


r,= вт s t=l (2) 


Se cumple que r, >0 оғ, < 0 si y solo si s,,,>0 0 s,,,<0 respectivamente. Además se 
< 1, de donde se obtiene que а= 1 si y solo si al representar 
mediante puntos en el ое. x,y los pares numéricos (x, y), estos se encuentran sobre una 
misma recta (ver 6.2, teorema 4). El coeficiente de correlación empirica se puede inter- 


оО AA А 
pretar entonces, como una medida рага la tendencia (dirección) e intensidad de la depen 


dencia lineal entre los valores x y los valores y. 
Para hallar en la práctica el coeficiente de correlación empírica se recomienda utilizar 
la relación (deducible fácilmente de 2) 


п 


Xy A х, У, 


НЕ (3) 
ү/(п-1)72, ү(п-1)5, 
y cuando no se han calculado anteriormente х, у, si, у S, puede utilizarse la relación 


2 (2: XÈ ) 


ta 2 (4) 


E (У (5) 


Ejemplo. El coeficiente de correlación empirico r, para el material numérico del ejem- 
plo del epigrafe 8.3 se obtiene utilizando (4) y con n=100, de la forma siguiente 


2 x,=5 009. > х=251 215, 
11 1=1 
У у,=3 460. , 5 yi=119 908, 


>. x, 1,=173 477. r.=0.674 


Queremos finalizar las explicaciones sobre la es adística descriptiva con una observa- 
ción general sobre las propiedades de aplicación de las fórmulas dadas en los epígrafes 
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8.2 y 8.4. Para la dedución de estas fórmulas hemos partido siempre de que los valores 
numéricos utilizados son resultados de procesos de mediciones, para los cuales se utilizó 
una escala de unidades, o con otras palabras, de que los valores de observación utilizados 
se pueden comparar (en el sentido de mayor que, igual que y menor que), de donde se ob- 
tiene que las diferencias de los valores de las mediciones también se pueden interpretar 
racionalmente. 

En especial, en las investigaciones pedagógicas, pero también en los psicológicas y en 
las sociales, se investigan con frecuencia características que no se pueden medir con una 
escala de unidades, conocidas como características cualitativas (piense por ejemplo en la 
caracteristica '*'resultado de una prueba”; esta característica se puede describir numéri- 
camente, digamos con las notas del 1 al 5, pero la diferencia entre las notas no se puede 
interpretar razonablemente. Otro ejemplo para esto sería la característica “procedencia 
social”). En estos casos no se pueden aplicar las fórmulas de manera irreflexiva; no 
obstante existe una serie de posibilidades de describir numéricamente, por ejemplo, la 
dependencia mutua de características cualitativas, es decir, de aquellas que no se pueden 
expresar por medio de una escala de unidades (por ejemplo, mediante el cálculo del lla- 
mado coeficiente de correlación del rango o del denominado coeficiente de contingencia). 
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9. Conceptos fundamentales de la Estadística 
matemática 


En este capítulo se hace una introducción a la Estadística matemática. Después de la ex- 
posición de las tareas que se plantea esta disciplina (epigrafe 9.1), se realiza en el epígrafe 
9.2 la definición de los conceptos población y muestra. El teorema esencial para todos los 
procedimientos de la Estadística matemática, el denominado teorema fundamental de la 
Estadística matemática, se explica en el epigrafe 9.3, haciendo referencia directa a la Ley 
de los grandes números de Bernoulli. Por último, en el epígrafe 9.4 se tratan los llamados 
estadigrafos, limitándose el tratamiento, en su esencia, a aquellas proposiciones que juga- 
rán un papel importante en la exposición posterior. 


9.1 Tareas que se plantea la Estadística matemática 


Muchos procesos reales se desc-iben convenientemente mediante modelos matemáticos, en 
los cuales aparecen variables aleatorias y también otros conceptos de la Teoría de proba- 
bilidades. Tales modelos matemáticos se denominan modelos estocásticos. Las distribucio- 
nes de probabilidad de las variables aleatorias que se presentan en la descripción de un 
proceso real mediante un modelo estocástico, son, con frecuencia, parcial o totalmente 
desconocidas. Esta es la situación de partida de la Estadística matemática. Sobre la base 
de observaciones, experimentos y mediciones debe ajustarse el modelo estocástico lo mejor 
posible al proceso real. 

Por ejemplo, en el caso más sencillo se trata de estimar de forma adecuada, sobre la 
base de los valores observados de una variable aleatoria, parámetros especiales descono- 
cidos de la distribución de probabilidad, por lo demás conocida, de dicha variable alea- 
toria, digamos, los parámetros до с? de una distribución normal. Otra tarea de la Es- 
tadística matemática consiste en someter a prueba, sobre la base de las realizaciones de 
la variable aleatoria considerada, si nuestra suposición acerca de la distribución de pro- 
babilidad que esta posee, digamos, una distribución normal, es correcta en el marco del 
modelo estocástico. 


Estos son ejemplos típicos para dos clases de problemas principales de la Estadística 
matemática, con los cuales nos ocuparemos en los capítulos 10 y 11. 
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En el capítulo 10 se exponen los elementos esenciales de la Teoría de la estimación, 
cuya problemática de orden práctico consiste en indicar de forma apropiada valores es- 
timados para parámetros desconocidos de un modelo estocástico. Por parámetros desco- 
nocidos debemos entender probabilidades de sucesos aleatorios particulares, característi- 
cas numéricas especiales de una distribución de probabilidad (por ejemplo, el valor espe- 
rado, la varianza, el coeficiente de correlación, etc.) y también funciones de distribución. 
En general, la Teoría de la estimación tiene como propósito indicar valores estimados pa- 
ra tales parámetros desconocidos (lo cual incluye métodos para la construcción de estima- 
dores), el estudio de estimadores con respecto a sus propiedades especiales y, sobre este 
basamenio, la comparación de diversos estimadores para un mismo parámetro. Partiendo 
de los datos numéricos concretos, las llamadas muestras (ver 9.2), se obtienen valores es- 
timados concretos utilizando los denominados estadígrafos (ver 9.4); luego, estos valores 
estimados dependen de influjos casuales. En la construcción de estimadores se toma como 
base frecuentemente, y esto de forma evidente, el principio de utilizar como valores vs 
timados para los parámetros desconocidos, aquellos que atribuyen la mayor probabilidad 
a los datos concretos de partida (método de máxima verosimilitud, ver 10.3). 


En el capítulo 11 se brinda una panorámica de la Teoria de la docimacia de hipótesis, 
cuya problemática de orden práctico consiste en someter a prueba, sobre la base de los 
datos concretos obtenidos, suposiciones especiales en el marco de un modelo estocástico, 
que se denominan hipótesis. Semejantes hipótesis pueden referirse a la probabilidad de un 
suceso aleatorio especial, a parámetros de una distribución de probabilidad, pero tam- 
bién, a la función de distribución de una variable aleatoria. La comprobación de una hi- 
pótesis de este tipo mediante una denominada dócima de hipótesis consiste, hablando sin 
mucha precisión, en averiguar si las magnitudes que se pueden calcular a partir de los da- 
tos y que son factibles de comparar con la hipótesis, se diferencian o no sustancialmente 
de las fijadas por la hipótesis. Las diferencias entre unas y otras magnitudes existirán 
siempre a causa de las influencias casuales al seleccionar la muestra concreta; por eso 
una dócima de hipótesis tiene la tarea de comprobar si las diferencias detectadas pueden 
aclararse mediante estas influencias casuales o por el contrario, indican hacia una hipó- 
tesis falsa. Esto último conduciría entonces al rechazo de la hipótesis. 


En este punto queremos aún llamar la atención hacia un hecho importante para cual- 
quier aplicación de procedimientos estadísticos, que se refiere al contenido de verdad de 
proposiciones estadisticas. Sobre la base de un procedimiento estadístico, por ejemplo, de 
una dócima de hipótesis del tipo arriba indicado, no pueden hallarse proposiciones segu- 
ras. Otra cosa no es de esperar, ya que siempre se procesa solo un número finito de datos, 
mientras que las proposiciones que se refieren a una llamada población (ver 9.2) abarcan, 
por lo general, un conjunto más extenso. La ventaja de la aplicación de procedimientos 
estadísticos (por ejemplo, en la comprobación de una hipótesis) consiste en que la proba- 
bilidad de una decisión errónea (por ejemplo, del rechazo de una hipótesis verdadera) 
puede calcularse. Abordaremos este aspecto más exactamente en los capítulos 10 y 11. 

En la aplicación de procedimientos estadísticos son interesantes los datos, no solo por 
sí mismos, sino por la forma y modo en que se obtienen. Es de gran importancia conocer, 
por ejemplo, si los datos se han obtenido mediante observaciones del valor de una variable 
aleatoria en repeticiones independientes de un experimento aleatorio o si estos experimen- 
tos dependían unos de otros. En el siguiente epígrafe nos ocuparemos con problemas fun- 
damentales que se refieren a los métodos de selección de una muestra. 
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9.2 Población y muestra 


El concepto muestra es de gran significación en los problemas estadísticos y está siempre 
unido con el concepto población. Queremos explicar estos conceptos con ayuda de ejem- 
plos y más adelante definirlos matemáticamente. 


Ejemplos 

1. En una fábrica se producen baterías para linternas. Supongamos que la producción 
diaria es tan grande, que no es económico comprobar si cada batería funciona correcta- 
mente. Sin embargo, para poder tener una impresión de la calidad de las baterías produ- 
cidas, se extrae un cierto número de baterías, una llamada muestra, у se verifica su fun- 
cionamiento; la elección se realiza de modo que cada batería de la producción diaria ten- 
ga la misma oportunidad de ser extraida. : 

2. La efectividad de un medicamento para bajar la presión arterial (hipotensor) se debe 
investigar. Para ello se probará el medicamento en un número de pacientes que padecen 
de presión alta. Este conjunto constituye la muestra y el conjunto de todos los hombres 
que padecen de hipertensión (por ejemplo, en la región de venta del productor) sería la 
población correspondiente. Luego, una muestra es in subconjunto finito de un conjunto 
universo О, que se denomina población en este contexto. Para lograr una conexión con las 
consideraciones teórico-probabilisticas, supongamos que Q es el conjunto universo de un 
espacio de probabilidad. 


Definición 1. Sea [Q, А, P] un espacio de probabilidad. Entonces todo subconjunto 
no vacio finito A de Q, A €A, se llama muestra (de la población Q). Si el conjunto A cons- 
ta de n elementos, entonces A se llama una muestra de tamaño n, y n se denomina tamaño 
de la muestra. 


En el primer ejemplo indicado, Q es el conjunto de las baterias producidas en un día, 
A el conjunto de todos los subconjuntos de Q y P(4) es igual a la probabilidad de que una 
batería extraida, de acuerdo con el procedimiento de selección, pertenezca al conjunto 
AER. 

Ahora queremos clasificar los conceptos “muestra con reposición” у“ muestra sin repo 
sición”, utilizados ya en los epigrafes 4.5 y 4.6. Para ello partiremos del espacio de pro- 
babilidad [0, A, Pl, donde © es un conjunto finito (соп N elementos о, ©, ..., 0,), А 
denota al conjunto de todos los subconjuntos de Q y la medida de probabilidad P está da- 


1 K 5 qua 
da рог Pí(o)) = = (i=1,2,..., N). (Una situación semejante se puede producir utilizando 


un recipiente, denominado comúnmente urna en el cálculo de probabilidades, que contie- 
ne N piezas geométricamente iguales, por ejemplo, N esferas iguales. Si después de agitar 
bien las piezas dentro del recipiente, se escoge ciegamente una, cada pieza tendrá igual 
probabilidad de ser extraída.) Si del conjunto Q tomamos consecutivamente п elementos, 
de modo que el elemento recién tomado se reponga antes de la próxima extracción, y que 
cada pieza tenga de nuevo la misma oportunidad de ser tomada, entonces obtenemos una 
llamada muestra con reposición de tamaño п de la población Q. Una muestra con repo- 
sición de tamaño n, se forma, por tanto, de n muestras de tamaño 1 (de acuerdo con la 
definición 1). Por consiguiente, en una muestra con reposición es posible que un mismo 
elemento ое sea extraido varias veces; también el tamaño de la muestra n puede ser ar- 
bitrariamente grande. Si, por el contrario, en cada una de las extracciones no se reponen 
los elementos, entonces se habla de una muestra sin reposición de tamaño n de la pobla- 
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ción ©. Por tanto, una muestra sin reposición de tamaño n es una muestra de tamaño n 
en el sentido de la definición 1. Por consiguiente, en una muestra sin reposición cada ele- 
mento weN puede ser extraído а lo sumo una vez, y para el tamaño de la muestra и se 
cumple que п< М. 


Muchas selecciones de muestras que se hacen con fines económicos, en especial, en el 
marco del control estadístico de la calidad, y para otras investigaciones científicas, se ba- 
san en el modelo de una muestra sin reposición. El objetivo de esta selección consiste, con 


frecuencia, en obtener información sobre la parte de los elementos de una población que 
están caracterizados por una determinada propiedad P (por ejemplo, por una caracteris- 
tica cualitativa particular). Para ello se puede describir una muestra de tamaño n median- 
te variables aleatorias X,, Х,..., Х„ de la manera siguiente: 


Es f 1, si el elemento tomado en la k-ésima extracción posee la propiedad “Р” 


0, si el elemento tomado en la k-ésima extracción no posee la propiedad “P” 


En una muestra con reposición, las variables aleatorias Х,, X,,.... Х, son independien- 
tes y están distribuidas idénticamente. La variable aleatoria S=X, + X,+...+X,, que in- 
dica el número (aleatorio) de los elementos con la propiedad “P” en la muestra, está dis- 
tribuida binomialmente con los parámetros n=tamaño de la muestra y p=probabilidad de 
la propiedad “Р” en la población. En una muestra sin reposición, las variables aleatorias 
Xo Xp X, están también distribuidas idénticamente, pero no son independientes entre 
sí. La variable aleatoria S=X, +X,+... +X, posee una distribución hipergeométrica. El re 
sultado concreto de la selección de una muestra, igual si es con o sin reposición, puede 
describirse por una sucesión finita de los números cero y uno. 


En nuestras consideraciones posteriores describiremos las muestras mediante variables 
aleatorias. Para ello sea [9, A, P] un espacio de probabilidad, y sea X una variable alea- 
toria sobre este espacio de probabilidad. Para obtener información sobre la distribución 
de probabilidad de la variable aleatoria X, por lo general desconocida, se repetirá n veces 
un experimento de forma independiente, observándose cada vez un valor concreto, es de- 
cir, una realización de la variable aleatoria. Con esto obtendremos los números 
Xp Хь X, Que son realizaciones de la variable aleatoria X. Si concebimos el número 
х, о sea, la realización de la variable aleatoria X en el k-ésimo experimento, como re- 
alización de una variable aleatoria Y, entonces las variables aleatorias X,, X,,..., X, son 
independientes entre sí y están distribuidas idénticamente que Y. Esto constituye el fun- 
damento para la definición siguiente: 


Definición 2. Sea Y una variable aleatoria con la función de distribución F. Enton- 
ces el vector aleatorio (Х,, Х,,..., X,), cuyas componentes Y, son independientes y están 
distribuidas idénticamente que X, se llama una muestra matemática de tamaño n de la po- 
blación X con la función de distribución Е. Las variables aleatorias A. X,,..., X, se deno- 
minan en este contexto variables de la muestra у a una realización (х,, х,..., X,) del vec- 
tor aleatorio (x, Х,,..., Х,) se le llama muestra concreta de tamaño n de la población Х 
con la función de distribución F. 


Observación. Anteriormente hemos dicho que por una población se debe entender el 
conjunto universo de un espacio de probabilidad. Este espacio de probabilidad está сагас- 
terizado, en este caso, por el conjunto de todos los n-uplos de números reales, es decir, 
por el conjunto В" у рог la distribución de probabilidad del vector aleatorio 
(Xy Xp- X). La distribución de probabilidad del vector aleatorio (Х,, X,,..., Х,) está 
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caracterizada por la función de distribución Fy , x, QUe está relacionada con la fun- 
ción de distribución de la variable aleatoria X (ver 6.4 (1)) según 


Fo. Xp... Ха) (х, Xp... х,) =F(x,) Ех)... FO). 


Por tanto, la población es en cada caso el conjunto В”; la función de distribución F de 
la variable aleatoria Y contiene la información esencial para las consideraciones teórico 
probabilísticas. Esto motiva las denominaciones introducidas en la definición 2. 


9.3 Teorema fundamental de la Estadística matemática 


El teorema fundamental de la Estadística matemática plantea que a través de muestras de 
tamaño suficientemente grande se puede describir aproximadamente y por tanto, recono- 
cer, la función de distribución de la población considerada, por lo general desconocida. 
En principio, todos los procedimientos y métodos de la Estadistica matemática se basan 
en este teorema; por esto el representa el eslabón principal entre la Teoría de probabi- 
lidades y la Estadística matemática, de donde se infiere también la denominación de este 
teorema como teorema fundamental de la Estadística matemática. 


El punto de partida de nuestras reflexiones será una muestra concreta (x, x,..., x,) de 
tamaño n de una población X con la función de distribución F. Para un número real х 
cualquiera dado averigiiemos el número m,(x) de los elementos de la muestra concreta 


т.) , que indi- 


que son menores que x, y consideremos para ello la magnitud w,(x) = 


са la frecuencia relativa de que los elementos de la muestra se encuentren en el interva- 
lo de — ~ hasta x. 


Definición 1. La función w, definida sobre el eje real por 


m,(x) número de los elementos x, X, ..., х, Menores que х 
xq =—— = ——  _— QqQQD A aaalllt 


» 


n n 


cuyos valores son números entre cero y uno, se denomina función de distribución empirica 
de la muestra concreta (x, х, ..., Xp). 


La función de distribución empírica w, de una muestra concreta (х,, х,..., х,) es una 
función escalonada, continua por la izquierda, que posee saltos en los lugares x,; la altura 


7 1 
del salto es igual а — , en caso de que el valor х, aparezca en la muestra exactamente 
п 
Е Я т, 
una vez, en caso contrario, esta es igual а —, donde т, denota el número de los ele- 


mentos de la muestra que son iguales а x, Para x< ¿mín X, se cumple que у(х) =0 y 
isn 
para x> máx x; se cumple que w,(x) =1. Estas propiedades muestran que w, es una fun- 
£i¿n 
ción de distribución (ver en 4.1 la observación después del teorema 1); esto justifica tam- 
bién la denominación introducida en la definición 1. Podemos reconocer en qué sentido 
esta función w, es una aproximación de la función de distribución F de la población, si 
tenemos en cuenta la totalidad de todas las posibles muestras concretas, y con esto, la to- 
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talidad de todas las posibles funciones de distribución empíricas para un tamaño n fijo de 
las muestras de la población dada. Escojamos ahora, como punto de partida, una muestra 
matemática (X, Х,..., Х,) de tamaño n de la población Х con la función de distribución 
F. Para un número real x arbitrario designe M,(x) el número de las variables de la mues- 
tra que son menores que x. Entonces M, (x) es una variable aleatoria y la magnitud 
m(x), definida anteriormente, puede concebirse como una realización de М(х). De 
acuerdo con la forma de proceder seguida en el caso de una muestra concreta, conside- 
M.) 

9 4 

Definición 2. La función W, definida sobre el eje real por 


raremos ahora la variable aleatoria W (х) = 


хи) _ М.) Е número де las X,, Xp... X, menores que 65 

п n 
cuyos valores son variables aleatorias, se denomina función de distribución empirica de la 
muestra matemática (X, Xp. Ху. 

Por tanto, para todo número хе В, W (x) es una variable aleatoria; ella indica la fre- 
cuencia relativa (aleatoria) de que los elementos X, de la muestra matemática 
(Xo X, ..., X) se encuentren situados en el intervalo de — © hasta x. La función W,, que 
asocia a un número real arbitrario х la variable aleatoria W(x), es un ejemplo para una 
denominada función aleatoria. El valor w,(x) de la función de distribución empirica w, 
de una muestra concreta (x, х,..., x,) en el punto x debe entenderse como una realiza- 
ción de la variable aleatoria W (х); en este sentido la función w, puede denominarse re- 
alización de la función aleatoria W.. 


Queremos referirnos ahora a la estrecha relación entre la función de distribución em- 
pirica W, de una muestra matemática (Х,, X,,..., Х,) de tamaño п de una población Ху 
la función de distribución F de esta población. 


Podemos entender una muestra concreta (x,, Xp... х,) como resultado de una serie de 
n repeticiones independientes de un mismo experimento, consistente en la realización de 
la variable aleatoria Y. Sea ahora x un número real arbitrario. El número de veces (con- 
cebido como variable aleatoria) de la ocurrencia del suceso (Y <x)- luego, la variable 
aleatoria М(х) -está distribuida binomialmente con los parámetros р= Р(Х < х) =F(x) y 
n=tamaño de la muestra. Por consiguiente, se cumplen las relaciones (ver 4.5, teore- 
ma 2) 


EM Дх) =пр=пЕ(х), ОМ (x) =пр — p) =пЕ(х) (1 Е0)). 


de donde, соп W(x) = M0) ‚ se obtienen las proposiciones 
n 
EW (х) =F(x) (neN) (1) 
y 
DW (x) MERO 0 (п =). (2) 
n 


Por tanto, el valor esperado del valor de la función de distribución empírica W, de una 
muestra matemática (X,,X,, ..., X,) de tamaño n de la población X, en el punto x, es igual 
-independientemente del tamaño n de la muestra- al valor de la función de distribución 
Е de esta población en el punto x, y la varianza de la variable aleatoria W (х) converge 
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hacia сего a medida que crece el tamaño n de la muestra (n — œ). La relación entre la 
función de distribución empírica W, de una muestra y la función de distribución F de la 
población considerada, se demuestra aún más claramente en el teorema siguiente. que 
constituye una forma debilitada del teorema fundamental de la Estadistica matemática. 


Teorema 1. Para todo número positivo £ y todo número real x se cumple que 


lim Р (|0, (х) – Е) |<) =1, (3) 


о sea, para todo número real х la sucesión (W (х)) converge estocásticamente hacia Fx). 


Demostración. Sea х un número real arbitrario. Entonces W,(x) es igual a la fre- 
cuencia relativa (aleatoria) /, (4) del suceso А=(Х<х} en una serie de n repeticiones in- 
dependientes de un mismo experimento, consistente en la realización de la variable 
aleatoria Ху A posee en cada ocasión la probabilidad р =P(4) = Р(Х < х) =F(x). Sobre la 
base de la Ley de los grandes números de Bernoulli (ver 7.3, teorema 1) se cumple para 
todo número positivo Е que 


lim Ра) —p|<e) =1, o sea, lim Р(|И, (х) -Fœ |<) =1. 
lo que queriamos demostrar. 


Ya que la Ley de los grandes números de Bernoulli puede considerarse también como ley fuerte de 
los grandes números (ver 7.4, Ley de los grandes números de Borel). la proposición del teorema 1 puede 
agudizarse de la forma siguiente: 


Plim W,Lo = Ех) =1. (4) 


Esto significa que para todo número real x. la sucesión (W,(x)) converge casi seguro hacia F(x). El 
contenido del teorema siguiente es un resultado esencialmente más fuerte. que se debe al matemático 
soviético V.I. Glivenko (1933). 


Teorema 2 (Teorema de Glivenko). Se cumple que 
Р (im sup AE) — Ех) |=0) =1. (5) 


No dumostraremos este teorema, pero queremos aún aclarar algo. La proposición (4) muestra que 
se cumple P(lim [И (х) – Ех) [=0) =1 para todo número real x. o sea, que para todo número real х 
ие 


la sucesión (D,(x)), Рх) = |w) —Ех) |. converge casi seguro hacia сего. La proposición (5) significa 
que ésta convergencia es incluso uniformé (en x), o sea. que la sucesión (D,), 


п 


D,= sup |w Foo! 


converge casi seguro hacia cero. La relación, expresada por medio de (5), entre la función de distri- 
bución empírica de una тиеяга matemática y la función de distribución de la población, se denomina 
teorema fundamental de la Estadística matemática. 


Concluyendo este círculo de problemas indicamos sin demostración, una formulación cuantitativa 
del teorema fundamental de la Estadística matemática. 


Teorema 3 (Teorema de Kolmogorov). Si la función de distribución F de la población es continua, 
entonces se cumple que 


lim Pa Sup [и (x) ron le )=x Gi 


con 


> (ote рага у>0, 


0 para у< 0. 
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Para la explicación de este teorema observemos que sobre la base del teorema de Glivenko la suce- 
sión (D,). D,= sup |W,(x)—FG0|. converge casi seguro hacia cero, luego, hacia una variable ale- 
ao rom 


atoria distribuida puntualmente. El teorema de Kolmogorov muestra que la sucesión (Va D) converge 
en distribución hacia una variable aleatoria, cuya función de distribución es la función K. Notable es, 
en particular, que esta función de distribución limite K no depende de F, bajo la sola condición de que 
F sea continua. En esta proposición se basan dócimas de hipótesis para la distribución de una pobla- 
ción; los valores necesarios de la función K pueden encontrarse en tablas de la Estadistica matemática. 


9.4  Estadigrafos 


En la aplicación de procedimientos de la Estadistica matemática se utilizan con frecuencia 
magnitudes, que se calculan a partir de una muestra concreta (por ejemplo, la media arit- 
mética o la varianza empirica). Su cálculo se basa, en cada ocasión, sobre una función 
real ọ definida sobre un conjunto de n-úplos de números reales, 


(х... Х,) (E R) =E (A... х,) (Е R). (1) 


(Por ejemplo, en el caso de la media aritmética se има de la función dada рог 


A 


1 
A = — х: 
мо У, 


il 
De forma general partiremos de una función p : В" =» ВК! y consideraremos una varia- 
ble aleatoria Х definida sobre el espacio de probabilidad [Я, A, P] y una muestra mate- 
mática (X,,..., X,) de tamaño n de la población X. Entonces se define por 


[9(X,...., X,)) (0) =)... X,(0)) (DEN) (2) 


una función real p(X,,..., X,) sobre el conjunto (2, que en este contexto se denomina es- 
tadigrafo, у que consideraremos siempre-como una variable aleatoria (sobre [Q, А, P). 
A continuación damos algunos ejemplos de estadigrafos que desempeñarán también un 


as eianticaciones posteriores: anui int mas alo 


papel en las explicaciones posteriores; aquí introduciremos algunas abrevia 


utilizarán en lo que sigue. 


Ejemplos 
1. Ф(Х,...., СЕ > x= З 


1 


2. O Х) = > (X,—1)?=: S” (ue R! Fijo). 
1=) 


3. Ф... Х) = (Х,-Х,):=:52. 


4. AX... X) =тах {Х,,..., Х}. 
5. AX)... X) = тіп (Xp. X,). 


El conocimiento de la distribución de probabilidad de estadígrafos especiales es de de- 
cisiva importancia en la realización de muchos procedimientos de la Estadistica matemá- 
tica; aquí nos interesan tanto las proposiciones acerca de la distribución de un estadígra- 
fo Ф(Х,,..., X,) para un п fijo, como aquellas sobre su comportamiento asintótico (o sea, 
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para п -» 0»). Estos problemas constituyen un interés central de la Estadística matemática. 
Del gran número de proposiciones que existen la respecto, solo formularemos algunas po- 
cas, y preferentemente aquellas que necesitaremos en el tratamiento de la teoría de la es- 
timación y de la docimasia de hipótesis (capítulos 10 y 11). 


Teorema 1. Sea (Х,,..., Х,) una muestra matemática de tamaño п de la población X 
con la función de distribución F. Para las funciones de distribución G y H de los estadi- 


grafos máx (Х,,..., X.) y mín (X,...., X} respectivamente, se cumple que 
Сх) =[Fx) P o <x < =) G) 


Но) =1 -[1-F(x)} (о <x < =). (4) 


Demostración. Como las variables de la muestra X,,..., X, son independientes у es- 
tán distribuidas idénticamente que Х, se cumple para todo хе В! que 


G(x) =Pímáx (Х, ..., X,) <x) 
=PAX,<X , ... ,) Х,<х) 
=РХ, <x) ..... PX,<x) 
=Fy, (0) +... > Е, W =) 


Н(х) =P(mán (Х, ..., X,) <x) 
=1—Pímin (Х, ..., X,)> х) 
=1-PA,2X, ..., X,2> х) 
=1 -AX,> x) :... : MX,> x) 
=1-(1-Е, (х)... (1-Е, (х) 
=1-1-Е0)}" 

Para los teoremas siguientes (2, 3, 4 y 5) se cumple que (X, ..., Х,) es una muestra ma- 
temática de tamaño n de una población que posee una distribución Мы, 03, 


= Ч 2 
Teorema 2. El estadígrafo qe > X, posee una distribución м, =} 
п п 


iai 
Demostración. Como la suma de variables aleatorias independientes que poseen una 
distribución normal posee, a su vez, una distribución de dicho tipo (ver en 6.5 observación 


posterior al teorema 4). > X, posee una distribución N (nu, по?) y, por consiguiente, 


= 1 с i= А 2 
X,= — > X, es una variable aleatoria con una distribución mu 2) 
рт п 


Observaciones 
X - 


1. Del teorema 2 resulta directamente que yn № es una variable aleatoria соп 


una distribución N(0, 1). 
2. Supongamos acerca de la población X considerada, que se cumple 0 < D?X < ~œ. En- 
XY -EX 
tonces la sucesión (45 E? ) converge en distribución hacia una variable aleatoria 
DX 
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que posee una distribución N(0,1) (ver 7.6, teorema 1). Luego X, posee para n grande 
2 

aproximadamente una distribución м(кх Dr 
n 


+ 1 < 
Teorema 3. El еѕіайівгаѓо 1 > соп 5*2 = — > (X,—u)? posee una distribución 
с п 


x? con n grados de libertad. 


: у : X- 5 Е : 
Demostración. Las variables aleatorias Y =— а (i=1,..., п) son independientes 


с 
y poseen una distribución №0, 1). Luego, según el corolario 1 (6.5) 


$ n= Y «- ah. $ tE 


izl 
posee una distribución у? соп n grados de libertad. 
1-15: _ У (E -Х, 

o? > 


Teorema 4. El estadigrafo 


- ) posee una distribución x? 


i= 


con п —1 grados de libertad. 
Renunciaremos a la demostración de este teorema algo dificil. 


У 
Teorema 5. El estadigrafo E, posee una distribución Е con n—1 grados de 


libertad. 

La proposición de este teorema se obtiene de los enunciados de los teoremas 2 y 4, de 
que X, y S? son estocásticamente independientes y por último, de la proposición del teo- 
rema 7 (6.5). 


„Teorema 6. Sean (Xp. Xn) y (Yp У,) dos muestras matemáticas de tamaño т 
de una población Х con una distribución N(u,, 92) y de tamaño N de una población Y con 


una distribución Ар, 07) respectivamente. Además, sean Ху Y estocásticamente inde- 
С 52 
pendientes. Entonces el estadigrafo Е ‚ con 


уи 


sazi $ a- -FJ y S, =— Y (Y-F); 


posee una distribución F con (m—1, п-1) grados de libertad. 


La proposición de este teorema se basa esencialmente en la proposición del teorema 4. 


MOS (9-10) 55 


De acuerdo соп ella, 2” poseen una distribución x? con m-—1 y 


o? с? 
n—1 grados de libertad respectivamente. Como Ху Y son independientes, esto se cumple 
А m-—1)8? n-i) S? Ne Ў 
también para T y = La proposición del teorema 6 se obtiene por úl- 
с с 
timo del teorema 8(6.5). 
Daremos algunas otras proposiciones sobre distribuciones de estadigrafos, sin demostra- 
ción, en los lugares donde las utilicemos. 
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10. Introducción a la Teoría de la estimación 


El capitulo siguiente contiene una introducción a la Teoría de la estimación. una de las 
ramas más importantes de la Estadistica matemática. Ади! trataremos las llamadas esti- 
maciones puntuales (10.2 hasta 10.4), utilizadas con frecuencia en las aplicaciones. y las 
denominadas estimaciones por intervalo (10.5 y 10.6). En relación con un grupo de datos 
concreto, las estimaciones puntuales conducen a valores aproximados de un parámetro 
desconocido, mientras que las estimaciones por intervalo conducen a intervalos donde es 
posible que se encuentre el valor de un parámetro desconocido. 

En los epigrafes siguientes se introducen de forma matemáticamente exacta. y se moti- 
van al mismo tiempo, los conceptos básicos estimación puntual y estimación por intervalo, 
se exponen los métodos y procedimientos generales y se muestra su fundamento teórico- 
probabilistico y naturalmente, para algunos problemas de estimación frecuente, se indican 
estimaciones apropiadas, tanto puntuales como por intervalo. La aplicación práctica de 
estas estimaciones conduce, en lo esencial, a un cálculo de medidas estadísticas y no da 


y паа 


lugar a otras complicaciones, de modo que renunciaremos a los ejemplos numéricos. 


10.1 Tareas que se plantea la Teoría de la estimación 


El problema principal de la Teoría de la estimación consiste en indicar métodos para ave- 
riguar valores estimados de parámetros desconocidos de un modelo estocástico. sobre la 
base de muestras. 

Nos queremos limitar, en lo esencial, al caso de la estimación de un parámetro desco- 
nocido. Este parámetro lo designaremos con y, al valor verdadero (pero desconocido) del 
mismo lo denotaremos con y,, y al conjunto de sus posibles valores en el marco del pro- 
blema considerado en cada ocasión, lo designaremos por el simbolo Г, donde suponemos 
que T es un intervalo sobre el eje real. 


Para la formulación matemática del problema fundamental de la Teoría de la estima- 
ción partiremos de una población Х, cuya función de distribución F depende de un pa- 
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rámetro 7=Г y consideraremos para ello una muestra matemática (Y. .... Х,) de tamaño 
n de la población Y. La Teoría de la estimación tiene. pues. la tarca de hallar estadígrafos 
adecuados Q (x, .... x,) para la estimación de y y de investigarlos con respecto a la de- 
pendencia de sus correspondientes distribuciones de probabilidad del parámetro 7. Luego. 
si (Xg .... x,) es una muestra concreta de tamaño n de la población Y. entonces el número 
Ф(х,..... Xp). que se concibe como una realización de la variable aleatoria Ф(А,..... ле 
puede utilizarse como valor estimado para yy: el estadigrafo tomado por base 0 (Y... Хх) 
se denomina en este contexto un estimador (para у). Por tanto. un estimador es una va- 
riable aleatoria. cuyos valores pertenecen al conjunto Г de los posibles valores del pará- 
metro; un valor estimado es un número real (el). 

Para diferenciar las estimaciones que en el caso particular proporcionan números (pun- 
tos sobre el eje real). de las llamadas estimaciones por intervalo. que se introducirán más 
tarde, denominaremos a las primeras estimaciones puntuales. Naturalmente. como estima- 
dores puntuales se aspira utilizar cstadigrafos que proporcionen una aproximación Іо“ me- 
jor” posible del parámetro a estimar. sobre la base de sus propiedades teórico probabilis- 
ticas. 


Ejemplo. Supongamos que la población X posee una distribución normal con la va- 
rianza D?X=0] (с, conocida. por ejemplo. «,=1). y que el valor esperado ЕХ es desco- 
nocido. Por tanto, hacemos y=EX y T= R'. Si (X,. .... Х,) es una muestra matemática 
de tamaño n de esta población. entonces el estadigrafo 


A BS > A 
ФОХ. X= = У ХЕ 
Е tl 


A A a 
posee el valor esperado (Ev, = Y), y se cumple que D? y,=—. Sobre la base de la de- 
n 


sigualdad de Chebyshev (ver 7.1, corolario 1) se cumple para todo £>0 la relación 


A с> 
PY, у> e) < —, 
ne? 
o sea, lim P( Y,—v/<8) =1. 


n 
na 1 } ; 62 
La sucesión (y,), Ү,= — > Х. converge estocásticamente hacia y. (Estas proposicio- 
i=] 


n 

nes se cumplen para todo yel = R!, en particular, para el valor “verdadero” Yẹ) Para 
un tamaño n de la muestra suficientemente grande se puede esperar que la media aritmé- 
tica X, de los elementos de una muestra concreta (x,, ..., х,) represente un valor estima- 
do pasable para el parámetro desconocido. (Por lo demás, en las reflexiones anteriores no 
hemos tomado en consideración que la población Х posee una distribución normal; es su- 
ficiente saber que la población Y posee una varianza (finita) para todo valor del paráme- 
tro.) 


Como muestra el ejemplo dado, en la valoración de un estadígrafo como estimador para 
un parámetro desconocido, es de gran significación el comportamiento asintótico, esto es, 
el comportamiento рага n =» œ. En la aplicación práctica, las proposiciones sobre el com- 
portamiento asintótico son de utilidad solo cuando el tamaño n de la muestra en cuestión 
es grande; en realidad, no se puede indicar exactamente qué se debe entender por un ta- 
maño “grande” de la muestra, lo cual depende también estrechamente del problema con- 
siderado. Además, se debe llamar la atención de que en vinculación con una estimación 


157 


puntual para un parámetro desconocido no se obtienen automáticamente proposiciones 
acerca de la exactitud de los valores estimados (si, por ejemplo, el estadigrafo utilizado 
como estimador es una variable aleatoria continua, entonces la probabilidad de que la es- 
timación proporcione el valor verdadero del parámetro es igual ‹ cero. Esto no significa 
que cuando se halla un valor estimado este no pueda estar situado muy cerca del valor 
verdadero del parámetro, lo cual es de esperar incluso en el caso en que n> >1). Ahora, 
si se desean proposiciones sobre la exactitud o si el tamaño n de la muestra es pequeña, 
planteamos la tarea de construir, sobre la base de una muestra matemática (Х,,..., Х,), 
un intervalo ЛХ, ..., Х,) que contenga al parámetro desconocido con una probabili- 
dad determinada de antemano (por lo general, cercana a uno). Los puntos extremos de 
este intervalo dependen de las variables de la muestra X, ..., Х„ por tanto, son ellos mis- 
mos variables aleatorias. Un intervalo ЛХ, ..., Х.) aleatorio en este sentido, se denomina 
estimador por intervalo de confianza o intervalo de confianza. Para una muestra concreta 
(Xp ..., х,) se obtiene, sobre la base de un intervalo de confianza Л(Х,,..., Х,), un 
intervalo J(x,, ..., х,) СГ, denominado intervalo estimado concreto para el parámetro 
desconocido. Las estimaciones por intervalo deben, por una parte, proporcionar interva- 
los estimados concretos lo más pequeños” posibles y por otra, deben contener al paráme- 
tro desconocido con una probabilidad lo más cercana a uno. 


En los epígrafes 10.5 y 10.6 nos ocuparemos, detalladamente, de los estimadores por 
intervalo; los epígrafes que siguen están dedicados a los estimadores puntuales. 


10.2 Estimadores puntuales (propiedades) 


Como se dijo en el epígrafe 10.1, entenderemos por un estimador puntual -brevemente: 
estimador- y, para un parámetro desconocido y, un estadigrafo Ф(Х,, ..., X,), cuyos va- 
lores pertenecen al conjunto Г de los posibles valores del parámetro. En este epigrafe de- 
finiremos las propiedades de los estimadores puntuales, sobre cuya base podremos hacer 
una valoración y comparación de estimaciones, en relación con un mismo problema de es- 
timación. Para ello partiremos siempre de la situación bosquejada en el epigrafe 10.1 (Po- 
blación X, distribución de probabilidad dependiente de un parámetro 
7ЕГС R! (X, ..., Х,) una muestra matemática de tamaño п de la población X.) 


Def inición 1. Un estimador Y, se denomina estimador insesgado para y, si el valor 
esperado de y, -calculado bajo la suposición de que y es el valor verdadero del parámetro- 
es igual a y para todo yeT. Para esto escribimos brevemente 


E, Y,=(vel) (1) 


La validez de (1) se exige para todo уеГ; con esto se cumple (1) en particular para y, 
el valor verdadero del parámetro. 


Ejemplo 1. Supongamos gue X posee una distribución uniforme sobre el intervalo 
0,5), 5>0 y que b sea desconocido. Hagamos y=b y Г=(у : y>0). Además, sea 


(Xp ..., X.) una muestra matemática de tamaño л de la población X. Para el estadigrafo 
- 1 e 
реа У X, 
n ist 


158 


se cumple (ver 5.3 (3)) que 


1 
EP, Х) = — п. >= 


n 2` 


para el estimador Y,=20(X,, .... X,) =2Х, se obtiene de aquí que 


A Y 
Er, =2 - — =Y (Y>0), 
2 
A 
o sea, y, es un estimador insesgado para y. 
En relación con los estimadores sesgados se utiliza el concepto sesgo (error sistemático) 
que caracterizaremos en la definición siguiente. 


A 
„ Definición 2 Cea y, un estimador para y. Se denomina sesgo (error sistemático)” de 
y, con respecto a ya 


Һе) =EY,-1 (eN). (2) 


Por tanto, para los estimadores : insesgados у. de y se cumple. que 65,(у) =0 para todo 
yer. La variable aleatoria 1, E, Y, se Пата error aleatorio de y, y la variable aleatoria 
Y, —7=(7,-Ел,„) (E, Y, —Y). que se obtiene de la suma del sesgo de Y, con respecto a y y 


el error aleatorio de Y. indica la desviación aleatoria del estimador Y de y. 


Ejemplo 2. Consideremos la situación bosquejada en el ejemplo 1 e investiguemos el 
estadígrafo 


y ,=máxlX,. E 


Para el cálculo de Ел. necesitamos la función de distribución o la densidad de Y. que 
queremos denotar con С, у g, respectivamente, suponiendo que y es el valor verdadero del 
parámetro. Se cumple (ver 9.4, teorema 1) que G, (x) =[F (x) F, donde con F, denotamos 
la función de distribución de la población Х, suponiendo que y es el valor verdadero del 
parámetro. Con 


0 para х< 0, 
х 
Е, (х) =< — рага 0< x< y, 


y 
1 para х> y. 


obtenemos 
рага x<0, 
Сх) = G y para 0< x € 
para x2 y. 
y con esto, 
0 para x<0 y para x>Y, 
gx) = 


para 0 <х<7. 
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A 
Para E, y, se obtiene entonces que 


- Y 
ei- f парах [n Edo "у 
ыы o ү" п+1 


y para el sesgo b,(y) de у, con respecto a y, tenemos que 


n Y 
y-Y=- 
n+l n+1 


Bv) ЕТ. -Y= (>0). 


A 
Observemos que lim Ё, (У) =0 у. por tanto, se cumple que lim E. y,=y para todo y. 
и 


La definición siguiente sirve para caracterizar, de forma general, el comportamiento 
analizado al final del ejemplo 2. 


A A k A А i ; 
Definición 3. Una sucesión (y,) de estimadores y, para y, se denomina asintótica- 
mente insesgada, si se cumple que 


lim Ey, =e). 6) 


A A 
(En caso de que se cumpla (3) para un estimador y,, se dice también que y, es asintóti- 
camente insesgado.) 


Por lo general, utilizaremos estimadores insesgados, o al menos, asintóticamente inses- 
gados. Como el hecho de que un estimador sea insesgado nada dice acerca de si la dis- 
tribución de probabilidad del mismo está concentrada o no alrededor del parámetro des- 
conocido, ni del modo en que lo hace, se preferirán especialmente aquellos estimadores 
que cuando n -+ œ se concentran alrededor del parámetro desconocido. Desde el punto de 
vista matemático expresaremos esta '“concentración” por medio de los tipos de convergen- 
cia de la Teoría de probabilidades (ver 7.2), en las definiciones siguientes. 


. . » a A . . О 
Definición 4. Опа sucesión (y,) de estimadores para y se denomina (débilmente) con- 
sistente, si para todo número positivo e se cumple que 


lim P (| y,-1|> 6) =0 en; (4) 


aquí es Palfy > Е) la probabilidad del suceso ( Y, —11> €), calculada bajo la suposición 
de que y es el valor verdadero del parámetro. (En caso de que se cumpla (4) para un es- 
timador ү, se dice también que y, es (débilmente) consistente.) 


Por consiguiente, la consistencia de una sucesión de estimadores significa que existe una 
convergencia en probabilidad. Las condiciones suficientes para la consistencia, menciona- 
das en el teorema siguiente, se pueden verificar con frecuencia más fácilmente que (4). 


Teorema 1. Las condiciones siguientes son, ambas juntas, suficientes para la consis- 
tencia (débil) de una sucesión (y,) de estimadores y, para y. 
A 
1. lim Ёу,=ҮЄГ), es decir, la sucesión (у) es asintóticamente insesgada. 
A A A A 
2. lim D? y,=0(yel); aquí D?y, significa la varianza de y, calculada bajo la suposición 
de que y es el valor verdadero del parámetro. 
Demostración. Sobre la base del teorema 1(7.1) se cumple para un Е positivo arbi- 
trario 
A 
E, n=? 


A 
PAlY,—Y|> €) < 
52 
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Ahora, se cumple que 
Е, (7,-12=E (7, -E M, Е, 1)? 
ЕД, -En +27, EY) (EP, HEY] 
=E (Y, EY) 2+0+H(E,Y, 1)? 
=D HEY". 


Si las condiciones nombradas en el teorema se satisfacen, entonces resulta de aquí direc- 


Ejemplo 3. Consideremos el estimador 1, =2X,, investigado en el ejemplo 1. Se cum- 
4 2 2 
plen las relaciones EY, =Y y ру, т 1-2 (ver 5.3(4)). Según el teorema 1 la 
n 1 п 
sucesión 7.) es débilmente consistente. 


Ejemplo 4. Consideremos el estimador y ,=máxlX,. .... Х}, investigado ya en el ejem- 


A A 
plo 2. Como fue averiguado allí, se cumple que lim E,y,=lim y=y. Рага` Dly, 


"-= n+l 
obtenemos que 


DY, =E t- (EY) | x?g (x) dx—(E y)” 


7 net 
n 2 n x 
= | п АШ ax-( ) = "-( А у) 
Y n+1 п+2 п+1 


о 


= п 
(и+1)и+2) 


A A 
Luego, para la sucesión (Y,), y, =máx (X,, ..., X,) se satisfacen las condiciones nombra- 
das en el teorema 1, y con esto la sucesión (y,) es también consistente. 


A A а 
Definición 5. Una sucesión (y,) de estimadores y, para y se denomina fuertemente 
consistente si se cumple que 


P, (іт y,=Y) =1 (ver). (5) 


Por consiguiente, la consistencia fuerte de una sucesión de estimadores significa que 
existe una convergencia con probabilidad uno. 


Si para una población Х existe el valor esperado EX, entonces la sucesión (ү), 


A — 1 
y, =X,==— > X, 


n is 


es una sucesión de estimadores fuertemente consistente para у=ЕХ, sobre la base de la Ley de los gran- 
des números de Kolmogorov (ver 7.4, teorema 6). 


Con las definiciones siguientes tendremos distintas posibilidades para comparar diver- 
sos estimadores insesgados, por medio de sus varianzas en relación con un mismo proble- 
ma de estimación. Para ello designe Г, el conjunto de todos los estimadores insesgados pa- 
ra y, sobre la base de una muestra matemática de tamaño п con varianza positiva finita; 
por tanto para Y, ef, se cumple que E Y =Y y que 0<D?, <œ para todo ye Г. 
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X A — A 
Definición 6. Un estimador y,eT', se Пата mejor que un estimador yel, si se cum- 
ple que 


A — 
D?y, < Dix, (үєГ). (6) 
La razón ру: DY, indica el grado en que у, es mejor que Y. 


Ejemplo 5. Consideremos de nuevo la situación ilustrada en el ejemplo 1 y compa- 
remos los estimadores 


a > Xy = máx (X.. .... X,). 


1=1 


п 


Se cumplen las proposiciones 


26 ~ y 
Е,= Y, Рі, = — 
3n 


(ver ejemplos 1 y 3), 
A A 2 
EY, =T, Dry =—— 
n(n+2) 
(ver ejemplos 2 y 4). 
Luego, ambos estimadores son insesgados y poseen una varianza finita para todo 
1>0(7, ЕЁ, 7 ЕЁ). 
En virtud de 
2 2 В 
f =— L-D%, (1>0), 
n(n+2) Зп 
el estimador у. es mejor que el estimador Y. (Se debe reflexionar otra vez sobre la sig- 
nificación de ambos estimadores, desde el punto de vista del contenido, para este proble- 
ma de estimación.) El grado en que el estimador Y, es mejor que el estimador у. tiene el 
valor 
y 
Š PRA 
D? ү, _ тп+2) _ 3 
DA, y n+2 
Зп 
y es, por tanto, independiente de y. Para п=4 se obtiene, por ejemplo, que dicho grado 


А 1 : 
es igual а — ; рага n =» œ este converge monótonamente hacia сего. 
2 


Definición 7. Un estimador ef, se denomina estimador eficiente, si para todos los 
estimadores 7, ЕГ, se cumple que 
A A 
Dyis Div, (үєГ). (7) 
El grado en que un estimador eficiente ef, es mejor que ref, es decir, 
A 
Dys 
е): == (er) (8) 
Di, 


A 
se llama eficiencia de y,, 


162 


Luego, un estimador eficiente es el estimador con menor varianza en el conjunto Ё, de 
estimadores considerado. 

Bajo condiciones bastante generales para la distribución de probabilidad de la pobla- 
ción considerada, se puede indicar una cota inferior positiva para las varianzas de los es- 
timadores y, eL. Si se ha encontrado un estimador yeef, cuya varianza es igual a esta 
cota inferior, entonces y. es evidentemente un estimador eficiente. A continuación trata- 
remos esta problemática de modo más exacto. 


Sea Х una variable aleatoria, cuya distribución de probabilidad depende de un parámetro уєГ. Su- 
pongamos que Х posee, para cada yeP, una distribución continua, y designemos соп f, la densidad co 
rrespondiente. Además, supongamos que la función y =f, (x) (vel) es dos veces continuamente diferen- 
ciable con respecto а y рага todo хе В! y que el conjunto {х: Л (x) >0) es el mismo рага todo yeT. 


A 
Teorema 2. Para todo estimador Y, er „ Se cumple, bajo las condiciones de regularidad nombradas, 
la desigualdad 


Dir, > (eT) 9) 
1) 
con 
а! 
10) =nD? (ED) (10) 
dy 


La desigualdad (9), que proporciona para un estimador у. dado una proposición acerca de su ехас- 
titud, se denomina en la literatura desigualdad de información o desigualdad de Rao-Cramer (en el ám- 
bito de los países de habla inglesa) o desigualdad de Fréchet-Darmois (en los países de lengua francesa). 
La magnitud dada por la expresión (10) se denomina información de Fisher; ella es una medida para 
la información contenida en la muestra sobre el parámetro que se debe estimar, y depende, en general, 
tanto de у(єГ) como del tamaño n de la muestra. En particular, extraemos de la expresión (10) que, 
bajo las condiciones adicionales halladas, las varianzas de los estimadores y, de una sucesión de esti- 
madores insesgados pueden converger hacia cero a lo sumo en el orden +. 

Ejemplo 6. Supongamos que X posee una distribución Ми, 02); sea и desconocido у 2 conocido. 
Hagamos y=H y F= Ri, Entonces se cumple que 

ЕЦ 


24: 
е (~> <х< ә, ye R), 


М») = 


276, 


y se satisfacen las condiciones я indicadas anteriormente, para esta población. Para / (ү) ob- 
tenemos, en virtud de р? X=0l 


с, que 
14) =пр? (0 in 2) nD? (С Е ашт 2 y) 
20 


0 


у con esto se cumple para todos los estimadores insesgados £ para y que 


o 
Df > (ye R). 


n 
% ; 
Para el estimador f Zan X, se cumple que Е, =Y y que рў = (ver para ello el ejem 
n i=l n 
plo del epigrafe 10.1). Luego Кан У X; es un estimador eficiente para y. 


n 4=1 
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Queremos cerrar esta problemática con algunas otras proposiciones interesantes sobre la desigualdad 
de Rao-Cramer, 


Teorema 3. Sean satisfechas las condiciones nombradas anteriormente con respecto a la pobla- 
ción X. Entonces se cumplen las proposiciones siguientes: 


Д a А P A A е 
1. Si existe un estimador insesgado 7, con D? т, = (veľ) entonces f, posee la representación 


(Y) 
Ј, (x) =exp (АС) Вх) +С® +DG0)) (- = <x<oo,ye Г), 


o sea, f, es del llamado tipo exponencial. 
2. Si f, es del tipo exponencial, es decir, si se cumple que 


Лх) =ехр UN В(х) +C) +D(0) (о <x< в, ТЕГ), 


y = B(X) es un estimador insesgado рага y, entonces se cumple que 
п = 


A R pi 
о sea, 7, es un estimador eficiente para y. 


A . + a 
‚ entonces Y, ез el único estimador insesgado 


3. Si existe un estimador insegado у. con D? Y,= 
: 10) 
con esta propiedad. 
Hustraremos este teorema con un ejemplo. 


Ejemplo 7. La densidad considerada en el ejemplo 6 


_ ay? 
1 1301 5 6х? 
Мх) = es” =ехр (5-2-5. ln Y2rx a) 


Var o, 
2 


Y 
es del tipo exponencial (Vo - 2 =— В(х) =x CN =-— , о) = а {2л 0,-— ). Рага el es- 
o 20; 


a 1 os 
4-1 У a Y x 
n п 


і=1 i=l 


timador 


se cumple que Е, =Y. ‚ Por tanto, sobre la base de la proposición 2 del teorema 3, т es un estimador 
eficiente para y (esto lo hemos verificado ya directamente en el ejemplo anterior) y en virtud de la pro- 
posición 3, т es el único estimador insesgado eficiente para y. 


Muchos de los estimadores utilizados comúnmente poseen, para un tamaño de la mues- 
tra suficientemente grande, una distribución aproximadamente normal. Precisaremos este 
comportamiento en la definición siguiente. 


A A A В 2 e A 
Definición 8. Una sucesión (Y,) de estimadores Y, €l', para y se dice que está distribui- 
da normalmente de forma asintótica, si se cumple que 


lim P “Y 
R Y 
VD; т, 


(En caso del cumplimiento de (11) para una estimador у. se dice también que Y posee una 
distribución asintóticamente normal.) 


<x )=000 (-eo<x<oe, yel) (11) 


Luego, la propiedad caracterizada mediante la definición 8, significa que existe una 
convergencia en distribución hacia una variable aleatoria №0,1). 
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Ejemplo 8. Sea A un suceso aleatorio que se presenta en el marco de un experimento 
aleatorio con la probabilidad р; р sea desconocida (0<p<1). 
Consideremos la variable aleatoria X. 
xl en caso de la ocurrencia de A, 
0. en caso de la ocurrencia de A. 


y pongámonos la tarea de estimar el párametro y=p sobre la base de una muestra mate- 
mática (X,,..., Х,) de tamaño п de la población Х. Para ello utilicemos el estimador 


^a 1l Pea А : н А З 

Y, =— X, que indica la frecuencia relativa aleatoria de la ocurrencia de A en una 
п 1-1 

serie de п repeticiones independientes del experimento considerado. Se cumplen las pro- 


posic iones 


(1—7) 


п 


(0 <у<1) 


A A 
Ey, =Y y Р? y,= 


(ver 4.5, teorema 4): luego (7,) es una sucesión de estimadores para y=p=P(4) débilmen- 
te consistente y fuertemente consistente también (ver 7.3, teoremas 1 y 6). Del Teorema 
integral de De Moivre-Laplace (ver 7.5, teorema n se obtiene directamente 


A 
lim P, Tat =lim P, 


Ana ASS =Ф(х} 
рії, Es i q 71 —7) 


(— о <х< о, O <y<1), es decir, la sucesión (у) posee una distribución asintóticamente 
normal. 


о 


10.3 Sobre la construcción de estimadores puntuales 


En los ejemplos analizados hasta ahora hemos partido siempre de estimadores puntuales 
dados y los hemos investigado con respecto а propiedades especiales (por ejemplo, si es 
insesgado, consistente, eficiente). Ahora se impone naturalmente la pregunta de cómo ob- 
tener estimadores puntuales, sobre todo cuando se exigen, además, ciertas propiedades de 
los mismos (por ejemplo, la consistencia). Para ello han sido desarrollados una serie de 
métodos, por ejemplo, el llamado método de máxima verosimilitud (en la literatura inglesa 
Maximunr*Likelihood-Methode) -que está en estrecha relación con el método de la suma 
de los minimos cuadrados- y el denominado método de los momentos. Aquí trataremos bre- 
vemente el método de máxima verosimilitud y después haremos referencia al método de 
los momentos. 

El método de máxima verosimilitud se basa en el principio de estimación siguiente. 
Como valor estimado para un parámetro desconocido de una distribución de probabilidad 
se utiliza aquel valor del parámetro para el cual a la muestra concreta le corresponde una 
probabilidad lo mayor posible. Asi se aclara el nombre de este método en la bibliografía 
inglesa (likelihood- probabilidad, pero más en el sentido del lenguaje usual que en el sen- 
tido matemático). 
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El punto de partida para la exposición de este método es una variable aleatoria Х. cuya 
distribución de probabilidad depende de un parámetro уеГ. En el caso de una variable 
aleatoria continua X, designemos con f, (x) la densidad de X en el punto x, bajo la su- 
posición de que y es el valor verdadero del parámetro; en el caso discreto sea 
f(x) =P (X=x). Además, sea (Л, .... X,) una muestra matemática de tamaño n de la po 
blación X, es decir, un vector aleatorio n-dimensional. cuyas componentes son indepen- 


n 
dientes у están distribuidas idénticamente que Х. Si X es continua, entonces Пло indi- 


Г | 
са el valor de la densidad de probabilidad del vector aleatorio (Х,, .... X) еп (х, ....x,). 
bajo la suposición de que y es el valor verdadero del parámetro (ver 6.4, teorema 2); en 
el caso de una variable aleatoria discreta se cumple que 


Пл РЕ Ех 
"= 


(ver 6.4, teorema 1). 


Definición 1. Si (xp .... x,) es una muestra concreta de tamaño n de la población 
X, entonces la función definida sobre Г por 


liy х 
AX о) X 


se denomina función de verosimilitud (Likelihood Function) de la muestra concreta 
¡CA х,). 


Por tanto, según las explicaciones que se dieron anteriormente, L(x, ..., х„ y) indica 
en el caso discreto la probabilidad de que la muestra matemática (Y,, ..., Х,) tome el va- 
lor (х,, ..., x,) (bajo la suposición de que y es el valor verdadero del parámetro); en el 
caso continuo, L(x,,*..., х,; Y) indica el valor de la densidad de la muestra matemática 
(Xp ..., Х,) еп (х,..., х,), bajo la misma suposición. 


El principio de estimación sobre el cual se basa el método de máxima verosimilitud con- 
siste en utilizar como valor estimado para el parámetro desconocido un valor tal, que pa- 
ra una muestra concreta (x, ..., х,) dada, la función de verosimilitud tome un valor 
máximo. Para la determinación de un valor estimado semejante se utiliza con frecuencia 
el cálculo diferencial -supuestas las propiedades de diferenciabilidad correspondientes de 
la función de verosimilitud que se satisfacen comúnmente en casos de aplicación. Como 


las funciones ү -=> L(x, ..., х,; Y у’ Ш L(x, ..., х, Y) (yel) toman valores máximos 
en los mismos puntos, nos ocuparemos, por conveniencia, no de la ecuación 
d 
— LX, ..., Хы 1)=0, 
dy 
| А З а 
sino de la ecuación (en muchos casos más sencilla) г ln 6х, ..., Xx, Y) =0. 
Y 
Definición 2. Si (xp ..., х,) es una muestra concreta de tamaño n de la población 
X, entonces la ecuación 
d 
— 1а L(x,, ..., Xy Y) =0 (2) 


dy 
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es conocida como ecuación de verosimilitud (Likelihood -Equation) de la muestra concreta 
AS E 


Si se sustituyen en la solución de esta ecuación los valores x, de la muestra concreta por 
las variables X, de la muestra (i=1, ..., п), se obtiene un estimador y, =9(A,, ..., Х,). 


.^ 
Definición 3. Un estimador 7,=9(Х, ..., Х,) que para toda muestra concreta 
(х... x,) es una solución де la ecuación de verosimilitud (o sea, para el que se cumple 


a d = 
la relación < In L(x х D о 0) y a la vez, es un punto para el cual la 
dy В : OS ть: : : : 

función de verosimilitud tiene.un máximo, se denomina estimador máximo verosímil para 
y (Maximum Likelihood-Estimatipn for y). 

(En nuestra exposición introductoria del método de máxima verosimilitud hemos exclui- 
do interrogantes acerca de la existencia de estimadores máximo verosímiles y de su uni- 
cidad.) 


Ahora queremos demostrar el método de máxima, verosimilitud en dos ejemplos. 


Ejemplo 1. Supongamos que X posee una distribución exponencial con el parámetro 
a (ver 5.5, definición 1); а sea desconocido. Luegó hagamos у=а, y>0. Entonces se cum- 
ple que 


У Б рага х< 0 


уе " рага х>0. 


Sea (ху. .... х,) una muestra concreta de tamaño п de la población X. Para la función 
de verosimilitud de esta muestra se obtiene que 


п 
х 


ЕО) Tis = [[ve-"=" Ei 
tal sl 


y de aquí 


In L(x, ..., Xx, Y =n ln Уфу > х, 


0] 


Por consiguiente, la ecuación de verosimilitud es 


d я 
— Ш LX, ..., хз = Е > x,=0. 
dy Y 


isl 


E ; 3 1 А 
La única solución de esta ecuación es y=——————; еп virtud de 
1 
1S 
n is 
d? n 
— In L(X, ..., xp; =-—<0 
dy ү 
se trata del punto de un máximo de la función de verosimilitud. 
Por consiguiente, para una muestra concreta se obtiene como valor estimado, según el 
método de máxima verosimilitud, el recíproco de la media aritmética de los valores de la 
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muestra. Si sustituimos ahora los valores de la muestra, por las variables correspondien- 
tes, obtenemos como estimador máximo verosímil para y 


A 1 
Yn” = 
1 

ixt 


Ejemplo 2. Supongamos que Х posee una distribución de Poisson con el parámetro 
А (ver 4.7, definición 1); А sea desconocida. Luego hagamos у=А, y>0. Entonces se cum- 
ple que 


Док) =ptx; y =P/X=x)=L e” (4=0,1,2....). 


Xi 


Sea (х,, ..., х,) una muestra concreta de tamaño п de la población X. Para la función 
de verosimilitud de esta muestra se obtiene 


Lp o ж Y= Пл = Й 


isl a ХИ Е 
а 


у de aquí 
Іа Их, ..., х, 1) =-ny+In Э? х, Ў In x,!. 
i=l isl 
Por consiguiente, la ecuación de verosimilitud es 
4 а L(x, ..., х Y =n TA > x,=0 
dy = 


La única solución de esta ecuación es ya > x; en virtud de 
Ra 


A! > x) <0 


d 
pe] In х, ..., Xy Y) 


se trata del punto de un máximo de la función de verosimilitud. Por consiguiente, para 
una muestra concreta se obtiene como valor estimado, según el método de máxima vero- 
similitud, la media aritmética de los valores de la muestra. Si sustituimos ahora los va- 
lores de la muestra por las variables correspondientes, obtenemos como estimador máximo 
verosímil para y 


п ial 


La significación del método de máxima verosimilitud consiste en que -bajo condiciones 
bastantes generales- proporciona estimadores con propiedades convenientes. Si existe, por 
ejemplo, un estimador insesgado y eficiente y* para y, este estimador se obtiene de forma 
univoca, según el método de máxima verosimilitud, y además, resulta que una sucesión 
de estimadores semejantes es consistente y posee una distribución asintóticamente normal. 
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Sin embargo, en el marco de nuestra exposición no podemos tratar estas proposiciones 
más detenidamente. 

Queremos concluir nuestras explicaciones sobre el problema de la construcción de es 
timadores puntuales con algunas observaciones sobre el método de los momentos. 


Sea de nuevo el punto de partida una población Х, cuya distribución de probabilidad depende de un 
parámetro yel; además sea (Х,, ..., X,) una muestra matemática de tamaño n de la población X. Su- 
pongamos que X posee momentos iniciales hasta de orden К, k> 1 (ver 4.3, definición 3 y 5.2, defini- 
ción 3). Estos momentos iniciales serán entonces, por lo general, funciones de yeT 


т;=Е, Xi=f (ү) (єг); j=1, ..., К. (3) 
Ahora queremos suponer que en la relación (3) se puede despejar univocamente y para j=j, 
у=/ т». 4) 
El principio de estimación sobre el cual se basa el método de los momentos consiste en sustituir la 
variable т, en cada ocasión, por el estadígrafo L У x 30. De esta forma se obtiene por medio de 
п 


ial 


(4) un estimador у рага 7, 
ES DE, GEO 
2 0 Дд 
паа 
que se denomina estimador рог el método де los momentos. 


Ejemplo 3. Supongamos que Х posee una distribución exponencial con el parámetro а; a sea des- 
conocido. Hagamos у=а, y>0, Entonces se cumple (ver 5.5, teorema 1) que 


1 
m,=E, X= — =f, (1) 
Y 
y con esto 


1 
y=—=f,' (m,) 5 
m, 


1 
Si sustituimos ahora m, por el estadigrafo — > X, obtenemos con esto el estimador 


Roja 
^_ 1 
no 
225, X, 
Roa 


para y. (Por tanto, en este caso se origina el mismo estimador por el método de los momentos que por 
el método de máxima verosimilitud, ver ejemplo 1.) 

(Otro estimador por еі método de 105 momentos -en realidad, más compiicado y también menos com 
veniente en sus propiedades- es el que se obtendría sobre la base de 


А р Е 
т,=Е,Х=р? Х+(Е, X)*= И —=—=f4r); 


yoy 
2 -1 
YY ——=f, m) 
m, 


es decir, 
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y entonces 


La sencillez del método de: los momentos habla en muchos casos a favor de su aplicación práctica; 
по se necesita más que una relación funcione! entre el parámetro y un momento inicial que se pueda 
despejar de forma univoca, y solo se utilizan estadigrafos del mismo tipo. А decir verdad, desde el pun- 
to de vista teórico no se conoce todavía mucho acerca de los estimadores por el método de los momen- 
tos. En esencia, se sabe solo que los estadígrafos que sustituyen los momentos iniciales son estimadores 
de los momentos iniciales insesgados, fuertemente consistentes y con una distribución asintóticamente 
normal. | 


Й 


10.4 Ejemplos importantes de estimadores puntuales 


En este epígrafe presentamos algunos estimadores puntuales utilizados con frecuencia en 
las aplicaciones; en particular, se obtienen aquí estimadores puntuales para los paráme- 
tros fundamentales que se presentan en las distribuciones de probabilidad tratadas por 
nosotros. 


10.4.1 Estimador puntual para un valor esperado desconocido 


El valor esperado EY de una variable aleatoria X se debe estimar sobre la base de una 
muestra matemática (X,, ..., X,) de tamaño n de la población Y. Luego, hagamos ү= ЕХ 
y Г= R!, Como estimador puntual у. para y utilicemos la media aritmética de las varia- 
bles de la muestra X,, ..., X,, 


IX, > х, a) 


El estimador puntual Y, es insesgado, 


y,=E, (3 $ 1)- 5 вла — n- y=Y (ye 8!) 


con respecto a la población Х solo se supuso que el valor esperado ЕХ existe. 
Además, se cumple bajo la suposición de que X, independientemente del valor del pa- 
rámetro, posee una varianza finita E < o para todo ye R!) que 


з y,=D? (+ Ў х) == 5 Dix e mx se 


para todo ye Ri. De aquí resulta con el teorema 1 (10.2) la consistencia (débil) de la su- 
cesión (y,), una proposición que también se obtiene directamente de las explicaciones so- 
bre la Ley de los grandes números (ver 7.4, teorema 3). (Por lo demás puede renunciarse 
a la condición р: X< æ (ye В, (ver 7.4, teorema 4); además se comprueba que la su- 
cesión (y,) es fuertemente consistente sobre la base de la Ley de los grandes números de 
Kolmogorov (ver 7.4, teorema 6).) El estimador puntuai Y. posee para n grande una dis- 
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tribución aproximadamente N € 22) (ver la observación 2 después del teorema 2 


(9.4)), y, por consiguiente, (у) posee una distribución asintóticamente normal (ver 10.2, 
definición 8). 

En especial obtenemos con (1) estimadores puntuales para el parámetro u de una va- 
riable aleatoria con distribución normal y рага el parámetro А de una distribución de 
Poisson. ` 


10.4.2 Estimadores puntuales para una varianza desconocida 


La varianza D?X de una variable aleatoria X se debe estimar sobre la base de una muestra 
matemática de tamaño л de la población Y. Luego hagamos y= D?X y Г= { у: y>0).'En 
lo que sigue diferenciaremos dos casos: 


а) = ЕХ conocido 
Como estimador puntual Y, para y utilizaremos la media aritmética de los cuadrados de 
las desviaciones de las variables de la muestra X (1=1, ..., n) del valor esperado (co- 
тйл) Hp | 


^ 1 < | 
Үү,.=5*1=— 2, Я, (2) 


^ 
El estimador y, es insesgado, 


A (1 1 x 1 
Ey, =E, (- > и-щ) 2 2 E(X,-4p)=— -n y=ylyeT). 
n n n 


Además se comprueba que la sucesión (7, es MSM: consistente sobre la base de la 
Ley de los grandes "números de Kolmogorov. 

En especial, obtenemos con (2) un estimador puntual para el parámetro а? de una va- 
riable aleatoria con distribución normal cuando el parámetro p= р, es conocido. 


b н=ЕХ desconocido 


En este caso utilizamos el estadigrafo 


А 1 x = i 
= À (Xp? D 6) 
i=l p 
como estimador puntual para y. 

El estimador (3) es un estimador insesgado para y. Con esto proporciona (3) un esti- 
mador puntual insesgado -y рог lo demás también consistente- para el parámetro 0? de 
una variable aleatoria con distribución normal, cuando el parámetro es desconocido. 


Observación. El estimador puntual dado por (2) no es utilizable aquí, ya que en (2) 
aparece para el caso considerado un parámetro desconocido. Si se sustituye este por Хх, 
entonces se obtiene con (2) un estimador по insesgado para y, pero sí asintóticamente in- 
sesgado. 


10.4.3 Estimador puntual para una probabilidad desconocida 


Como valor estimado para la probabilidad (desconocida) р de un suceso aleatorio А uti- 
lizamos la frecuencia relativa de la ocurrencia de este suceso en una serie de n repeticio- 
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nes independientes de un mismo experimento, en el cual el suceso A tiene la probabilidad 
p. El estimador puntual y, sobre el cual se basa este procedimiento fue investigado en 10.2 
(ejemplo 8); este se mostró como un estimador insesgado para p y allí se estudió también 
que la sucesión (y) es consistente y posee una distribución asintóticamente normal. 


10.4.4 Estimador puntual para una función de distribución 
desconocida 


El problema de la estimación del valor desconocido de la función de distribución F de una 
variable aleatoria X en un punto хе В, o sea, de F(x), es equivalente al problema de la 
estimación de la probabilidad del suceso aleatorio (Y <x). Si existe una muestra concreta 
(х, ..., х,) de la población Y, entonces se utiliza como valor estimado рага F(x) -de 
acuerdo al modo de proceder en 10.4.3- el valor de la función de distribución empírica 
W, de la muestra concreta (x, ..., x,) (ver 9.3, definición 1) en el punto x, es decir, el 
número w,(x). El estimador puntual tomado aquí por base es el valor de la función de dis- 
tribución empírica W, de una muestra matemática (X,, ..., X) (ver 9.3, definición 2) de 
la población X en el punto x. Al respecto observemos aún que se puede comprobar que 
el estimador W (x) es insesgado y que la sucesión (W, (x)) es consistente mediante la re- 
lación (1) y el teorema 1 de 9.3, respectivamente. 


10.4.5 Estimador puntual para un coeficiente de correlación 
desconocido 


Sea (Y, Y) un vector aleatorio bidimensional (ver 7.1) con el coeficiente de correlación 
(desconocido) p (ver 6.2, definición 3 y 6.3, definición 3). El parámetro y=p debe esti- 
marse sobre la base de una muestra matemática ((X,, Ү,), ..., (X, Y )) de tamaño п de 
la población (Y, Y)- esta es, por tanto, un vector aleatorio n dimensional, cuyas compo- 
nentes (Y, Y) son independientes y están distribuidas idénticamente que (Y, Y). Рага ello 
se utiliza el estadigrafo. 


$ (X,-X) (Y.-F) 
A i men (4) 
V$ -zy $ 


En el caso de una muestra concreta ((x,,y,), ....(x,, y,)) se obtiene como valor estimado, 
utilizando este estimador рипа] para el coeficiente de correlación, el coeficiente de co 
rrelación empírica 


$ (x,- х) {:- y) 
r,= lei (5) 


\ > (х,-х,)2 ү Ў 0-5) 


El análisis del estimador puntual R, у el tratamiento de problemas referentes a esto (por 
ejemplo, intervalo de confianza para el coeficiente de correlación, dócimas de hipótesis 
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sobre la independencia de variables aleatorias) son tareas parciales del llamado análisis 
de correlación, de un procedimiento de análisis estadístico, que desempeña un gran papel 
en los distintos campos de aplicación de la Estadística matemática. En el marco de nues- 
tra introducción no podemos tratar esto de forma más detallada. Solo advertimos (sin de- 
mostración) que, en el caso de un vector aleatorio (Y, Y) con distribución normal, se cum- 
plen las proposiciones 
5 2 
E,R, =P y D} R,~ => (n>>1). 
n РА 


10.5 Estimaciones por intervalo de confianza 


Nos ocuparemos en este epígrafe de estimaciones por intervalo de confianza, que se uti- 
lizan especialmente cuando se desea un grado de exactitud de la estimación de un pará- 
metro desconocido, que no se puede obtener con una estimación puntual (por ejemplo, a 
causa de un tamaño de la muestra muy pequeño). La situación de partida es, por tanto, 
la misma que para las estimaciones puntuales: La distribución de probabilidad de una po- 


blación Y depende de un parámetro y е ГС Bi; el valor verdadero -pero desconocido. del 


parámetro y se denota con 7, Además, sea <, ... X) una muestra matemática de ta- 
maño n de la población Y. Como se acordó en el epígrafe 10.1, entenderemos por un in- 
tervalo de confianza J (X, ..., Х,) un denominado intervalo aleatorio, es decir, un inter- 
valo cuyos extremos son magnitudes dependientes de las variabies de la muestra -luego son 
variables aleatorias; para toda muestra concreta (x,, ..., х,), Их» ..., х,) es un intervalo 
comprendido en T. 

De importancia decisiva para una estimación por intervalo de confianza es la probabi- 
lidad de que el intervalo aleatorio ЛХ, ..., X,) contenga al valor verdadero y, del pará- 
metro; para este suceso aleatorio escribiremos (HA, ..., X.) эт). Por consiguiente, nos in- 
teresa Р, W(X,.....X,) эү). Pero como no conocemos a Y, nos ocuparemos de forma más 
general con la probabilidad de que el intervalo aleatorio ЛХ,, ..., Х,) contenga al valor 
yeT, calculada bajo la suposición de que y es el valor verdadero del parámetro, o sea, con 
Р(Х, ..., X) эү) para yeT. 


Definición 1. Sea ЛХ, ..., Х,) un intervalo de confianza. El número 
e=minP JA, ... X) ay) (1) 
Y 
se denomina coeficiente de confiabilidad del intervalo de confianza ЛХ, ..., Х,). 


Definición 2. Un intervalo de confianza ЛХ, ..., X,) se denomina un intervalo de 
confianza para y con el nivel de confiabilidad 1-а (0 <a<1, dado) si 


P, Xp -~ Y) эт) > 1-а (rel) (2) 


о sea, si se cumple que £> 1—a. 

La probabilidad de que el intervalo aleatorio ЛХ, ..., Х,) contenga al valor y, calcu- 
lada bajo la suposición de que y es el valor verdadero del parámetro, tiene al menos el 
valor 1 —a para un intervalo de confianza con el nivel de confiabilidad 1 —a. Aquí se exige 
ta validez de (2) para todo уєГ; con'esto se cumple (2) en particular para Y, el valor уег-. 
dadero del parámetro. 
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Ejemplo 1. Supongamos que la variable aleatoria X está uniformemente distribuida 
sobre el intervalo [0,5], b>0; b sea desconocido. Hagamos y=b y Г=(у: y>0). Quere 
mos indicar para y un intervalo de confianza con el nivel de confiabilidad 1—0 (0 <0 <1, 
fijo). Para ello utilicemos el estimador puntual y,= máx (х, а X} (ver ejemplo 2 
(10.2)). Fijemos el intervalo aleatorio en la forma 


KX, ..., X,)=[8,Y, 8, У] con 1< 5, <ô, : 
(En principio esto es algo arbitrario, pero razonable.) Ahora determinemos ô, у 5, de mo- 
do que se cumpla la desigualdad Р(ХХ,, .... X) эу > 1—a para todo уеГ. Se cumple que 
A A Y A Y 
P, UA, ..., X) 37) =Р(5,у,<7<5, ү) =P, | —< 1, <—). 
6, 5, 
Si observamos ahora que la función de distribución F Y de la variable aleatoria Y, -са|- 
culada bajo la suposición de que y es el valor verdadero del parámetro- está dada por 
0 рага x< 0, 
Fa б) = (+ para 0< x< y, 
Y 
1 para x> y 


(ver 9.4, teorema 1), obtenemos que 


n п 1 1 
P, OÆ, ..., X) эу) =F; (2)-., (2)42) (EE) AA 
"х, "ё, бу 5 ör 8 


; 1 
Escojamos, por ejemplo ô = ——— y 5,= 


con a,> 0, a,>0, a, +4,=0, enton- 
1—0, ү а, 
ces se cumple que 


PHX, ..., X) эү) =1-0,-0,=1-0, 


osea, 
Y, Y, 
ès Хх, = == - п 
\ 1-9, Ya, 


es un intervalo de confianza para y con un nivel de confiabilidad 1-а. Para una muestra 
concreta (x,, ..., x,). se obtiene por medio de este estimador el intervalo estimado concreto 


HA, | (a,> 0, a,>0, a, +а, =а) 


Дх} ..., х,) =fr: Шаг < < ос 
y 1-а а, 
соп х, = тах (ху, ..., х,) (ver fig. 46 a). Рага а, =0, а, =а se obtiene el intervalo esti- 


mado concreto (ver fig. 46 b), 


E 
IA -o x)= f ERES Zas) 
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y para а, 0, a, —4 se obtiene el intervalo estimado concreto (ver fig. 46 с) 


х 
Ух, -o X) = f : —— < 1<+=) 
\/1-а 
7х „.,х,) 
а ———ШЙЙыДбЫы=ыЫ=—ыыы==>5ч_—< 
0 Хы a х Y 
n Л -4, a a, 
Ј (ох) 
b 
0 e х 
Ya 
А ба) 
с pe a 
0 Хела Ха х 
y 1-а Figura 46 
Por medio de un intervalo de confianza con el nivel de confiabilidad 1—a se obtiene 
para una muestra concreta (x, ..., х,) un intervalo J(x,, ..., x,) ST y se decide común- 


mente a favor de que “y,eJ(x,,..., x,)”. Esta decisión será verdadera o falsa en el caso 
concreto; en todo caso ella nada tiene que ver con la casualidad y no se trata tampoco 
de una proposición que sea correcta con probabilidad > 1-а. A decir verdad, se puede 
estimar la probabilidad á de una decisión errónea para el principio tomado por base en 
la decisión concreta ilustrada. Una decisión errónea ocurre siempre y cuando el valor ver- 
dadero y, del parámetro no pertenezca al intervalo J(x,, ..., x,). Luego, se cumple que 


8=Р, (ИХ, ..., X) 9). 3) 


En virtud de (2) resulta que 5< а, independientemente de qué valor posea y, еп Г. Con 
esto se aclara también el papel del parámetro a; con el principio de decisión descrito se 
necesita calcular como promedio con no más de 100 a% de decisiones erróneas, y de 
acuerdo con esto -considerando naturalmente el planteamiento de la tarea concreta y en 
particular, las consecuencias de una decisión errónea- se fijará а. (Con frecuencia se elige 
a=5%, a=2% o a=1%.) Aquí se tiene que reflexionar, en especial, que el hacer а más 
pequeño conduce, por lo general, a un intervalo estimado concreto de mayor longitud. 
(Рата а=0 se obtiene forzosamente como intervalo estimado, para todas las muestras 
concretas (x,, ..., х,), el conjunto Г de todos los posibles valores del parámetro; por 
tanto, en este caso no se utiliza la información contenida en la muestra acerca del valor 
verdadero del parámetro.) 


En la construcción de un intervalo de confianza con un nivel de confiabilidad 1—a dado, está pre- 
sente aún -como mostró el ejemplo 1- una cierta arbitrariedad (elección del estimador puntual tomado 
por base y sustitución para los extremos del intervalo aleatorio). 

Por ello nos queremos ocupar un poco más detenidamente de la valoración y -sobre este basamento- 
de la comparación de intervalos de confianza. Un medio auxiliar esencial para esto es la denominada 
función de bondad. 


Definición 3. Sea ЛХ,, ..., X,) un intervalo de confianza. Entonces la función B, 
В(ү, ү) =P, ((Х,, ..., Х,) эү), 5 (4) 
definida sobre Г х Г se denomina función de bondad del intervalo de confianza dado. 
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El valor B(y, y ) de la función de bondad В en el punto (у, y) eTxT indica, por consiguiente. la pro- 
babilidad de que el intervalo de confianza considerado contenga al parámetro 7’, calculada bajo la su- 
posición de que y es el valor verdadero del parámetro. Luego, se cumple siempre que 0< В(у, у) < 1. 
51АХ,. ..., X,) es un intervalo de confianza con el nivel de confiabilidad 1 —a. entonces se cumple que 
В (у, у) > 1-а para todo уеГ. 


Ejemplo 2. Calculemos la función de bondad del intervalo de confianza 


ИХ, .... Хд= . == | (0,20, а,>0, 0,+0,=0) 
\ 1-9, a, 


con el nivel de confiabilidad 1 0, dado en el ejemplo 1. Para y>0, 7’>0 se cumple que 


A 
ү; Y 
Biy, ү) =P, (ИХ, .... Xp) эү?) =P, = Ys ) 


a5 1 мага mw i 
— 15, para 0 <y'< Я 
` A © Y a 
l-a, 
97 y vy Y Y 
= 1 - = 1-а, ұ — j рага < ys 9 
Y Y " т 
1-a, а, 
Y 
1 > 1 =0 para y > 


Рага a,=0, 4,=4, о sea, para el intervalo de confianza (ver fig. 46 b) 


A 
A E A | 


E 


con el nivel de confiabilidad 1—a, obtenemos la función de bondad B,, 
Y n 
(1 —a) (=) рага 0<y'x< y, 
Y 


У Y Y 
Ву, т) = 1-а (G) para y< Y'S —, 
Y a 


[ 


а 


ү 
0 para y'> z= 
Vo 
Observemos que se cumple que B, (y, y) <B (Y, y) =1—a para todo y>0, y">0 con уху’. 
La propiedad hallada por último en el ejemplo 2 nos dice que todo valor “falso” del parámetro está 
contenido en el intervalo de confianza con una probabilidad menor que para el valor verdadero de este, 


independientemente de qué valor del parámetro es el verdadero. Expresaremos este hecho de forma ge- 
neral en la definición siguiente. 
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Definición 4. Un intervalo de confianza KX, ..., X,) se denomina admisible, si para la función 
de bondad B se cumple que 


Biy, 1 > Вт, 19 (0. 1) ET x Г). (5) 


Por último advertimos que la comparación de intervalos de confianza (en el marco de un mismo pro- 
blema de estimación) se reduce fundamentalmente a la comparación de las funciones de bondad corre» 
pondientes. 


Definición 5. Sean J (X, ..., Х,) y JAX, ..., X,) intervalos de confianza (en el marco de un mis- 
mo problema de estimación) con las funciones de bondad В, y B, El intervalo de confianza 
ЛС, ..., X,) se llama mejor que el intervalo de confianza J,(X,,..., Х,), si se cumple que 

В, (Y, т) < В, (у. Y) (1, 1) ET x Г, ужу). (6) 


El motivo para esta definición está claro de acuerdo con lo que precede y a la definición de función 
de bondad. 


Ejemplo 3. Como continuación del ejemplo 1 consideremos el intervalo de confianza (ver fig. 46c) 


A 
Ya 


Л у ==, ya 


con el nivel de confiabilidad 1 а, que se obtiene del intervalo de confianza J(X,, ..., X,) con el nivel 
de confiabilidad 1 -а, deducido en el ejemplo 1, a través del paso (formal) al límite a, а. Para la fun- 
ción de bondad correspondiente se obtiene que 


(1-а) (2) para 0 < у’ l 
Y 


1-а 
Ву ү) = 
1 рага y'> t 
\ 1-а 
(Observemos al margen que J(X,, ..., Х,) no es admisible, рог ejemplo, se cumple que 
Ву, У) =1> В, Y =1 -а para todo (y, y) con y'> ‚ 1>0). 
1-a 


Si comparamos esta función de bondad con la función de bondad B, del intervalo de confianza 
A 


ИАА 
IXe eo A) = | ЦЕ considerada en el ejemplo 2, obtenemos que 
а 
BAY. Y) < BY, Y) (1>0, ү'>0, ужу), 


es decir, que el intervalo de confianza Л(Х, ..., Х,) es mejor que el intervalo de confianza 
Л»... Xp). 


10.6 Ejemplos importantes de estimaciones por intervalo 
de confianza 


En este epígrafe indicamos intervalos de confianza con el nivel de confiabilidad 1—a 
(0<u<1) para los parámetros de una variable aleatoria con distribución normal, la pro- 
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babilidad de un suceso aleatorio y la función de distribución de una variable aleatoria. Se 
recomienda al lector que reflexione acerca de la significación de los extremos del intervalo 
de confianza (límites de confianza), que motive con esto la sustitución qué se hace en cada 
ocasión para el intervalo de confianza y que investigue la influencia de a, n y, dado el 
caso, de otras magnitudes características. 


10.6.1 Intervalos de confianza para los parámetros 

de una distribución normal 
Sea X una variable aleatoria con distribución norma: y parámetros u y 07, y además, sea 
(X, ..., X) una muestra matemática de tamaño п de la población xX. En los extremos de 
los intervalos indicados a continuación se utilizan los estadigrafos Х,, 52 y S**(ver 9.4) y 
también los percentiles de la distribución normal estandarizada y de las distribuciones г 
y xi (ver 5.6, definiciones 1,2, y 3; tablas 3, 4 y 5); aquí denominamos соп 2, el percentil 
de orden р de la distribución normal estandarizada (Ф(2,) =p). Para indicar intervalos de 
confianza con el nivel de confiabilidad 1—a рага у=и, tenemos que diferenciar si с? es 
conocida o no; de la misma forma, para indicar intervalos de confianza para у= а? tene- 
mos que diferenciar: si и es conocido o no. 
a) У=Н, 02=02 (conocida) 


Teorema 1. Sean а, y а, números positivos con a, на, =0. Entonces 


Vo, x)=[x, ЕГИ F Lo | (1) 


vn vn 
es un intervalo de confianza para y con el nivel de confiabilidad 1-я. 


Demostración. Se debe mostrar que se cumple 


BO, Y) =P, (ЛХ, ..., X) эу) > 1-а para todo ye Ri: 


B, ү) =РАМХЬ ..., Х,) эү) =P, ( Я. зах Fiia 


=P, (a. aS yn 280 < Ziza, )-0%7... — (21.0) 


% 
=1-a,-(11-(1 -a))=1-(0,+0,)=1—a. 


(Aquí fue utilizado el hecho de que para una variable aleatoria con distribución М (y, 92), 
ХХ 


la variable aleatoria vn posee una distribución №0 1), ver en 9.4 la primera obser- 


в 
vación después del teorema 2) 


Observemos que la longitud (en este caso no aleatoria) del intervalo de confianza es 

с : а ; R 

igual a (2,_,+2,_,) —_, ella se hace mínima para 4,=a,=-—, es decir, para el llamado 
n 2 


intervalo de confianza simétrico. 
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b) y=p, o? (desconocida). 


Teorema 2. Sean a, y a, números positivos соп о, +0,=а Entonces 


= = Ts 
Хх, и. X.) [2-1 x Хн, 1-2, E (2) 
n n 


es un intervalo de confianza para y con el nivel de confiabilidad 1 ~a; aqui £,_,,¿ denota 
al percentil de orden В de la distribución { con n—1 grados de libertad. 


Observación. En comparación con el intervalo de confianza (1) indicado en el 
teorema 1, han sido intercambiados en (2) о? y los percentiles de la: distribución №0,1) 
por 52 y los percentiles de la distribución t con n—1 grados de libertad, respectivamente. 


Demostración 
B, ү) =РАКХ, ..., Х,) э?) 


$ 52 E 52 
=P, (=. а \|— 5 7< + пра s) 


=1-a,-[1-(1-0,))=1-(0,+0,) =1-а. 


(Aquí fue utilizado el hecho de que para una variable aleatoria con distribución Му, 92), la variable 


а, 


aleatoria ——_—2__-- posee una distribución г con n—1 grados de libertad, ver 9.4, teorema 5.) 
5: 


n 


Observemos que el valor esperado de la longitud del intervalo de confianza para 


a . 
a =а,= — se hace minimo. 


? 
= 


с) y=0?, =p, (conocida) 


Teorema 3. Sean а, y а, números positivos con а, на, =а. Entonces 


A] +2 В 1 п 
ра | Ta LSE | eon 5-2 $ M4? 6) 
n 


es un intervalo de confianza para y con el nivel de confiabilidad 1—a; aquí Xs н denota 
el percentil de orden В de la distribución x? con n grados de libertad. 


Demostración 


т 
Bl У =P. IX, -n Xan =P, (s ys 
Хал Я Xan. с 


(Aquí fue utilizado el hecho que para una variable aleatoria X con distribución Ми. Y). la variable 
ns 


An 


aleatoria 


posee una distribución x? con n grados de libertad, ver 9.4, teorema 3.) 
T 
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d) ү=62, u (desconocido) 
Teorema 4. Sean a, y a, números positivos con a, +а, =а. Entonces 
(M-1)S  (n-1) 5 | 


es un intervalo de confianza para y con el nivel de confiabilidad 1 –а. 


ЛХ... X) -| (4) 


Demostración 
f -ns {1-15 
ВО, Y =P NX, ..., X) эу =P, { : < у ) 
1 1-9 n a, 


in-S? 
Y 
(Aqui fue utilizado el hecho de que para una variable aleatoria con distribución Ми, y), la variable 


s 


=P, (=. aS SA 0 ЗЕЕ ЖЕН 


aleatoria posee una distribución x? con n-—1 grados de libertad, ver 9.4, teorema 4.) 


Y 


10.6.2 Intervalo de confianza para una probabilidad desconocida 


Sea A un suceso aleatorio que ocurre en el marco de un experimento con la probabilidad 
р; р sea desconocida (0<р<1). Consideremos la variable aleatoria Y, 
х= de en caso de que А ocurra, 
, en caso de que Я ocurra, 
y planteémonos la tarea de indicar para el parámetro y=p un intervalo de confianza con 
el nivel de confiabilidad 1 –а, sobre la base de una muestra matemática de tamaño n de 
la población Х. Para ello tomemos por base el estadigrafo 


M=, (4) Ў х, 


d=1 


que proporciona la frecuencia absoluta de A en n experimentos. La variable aleatoria M 
posee una distribución binomial con los parámetros n y y, en el caso que y sea el valor 
verdadero del parámetro. Expresamos el intervalo de confianza ЛХ, ..., Х,) en la forma 


NX, Х,) =P M) AMO); (5) 
luego, los extremos deben ser funciones de la variable aleatoria M. 


Teorema 5. El intervalo de confianza (5) es un intervalo de confianza con el nivel 
de confiabilidad 1 –а, si para toda realización m de М los extremos pm) y pm) del 
intervalo de confianza concreto [p,(m), pm)] están fijados de modo que se cumplan las 
relaciones 


У( $ ) (рт) [1 р, (т) = © (6) 
k=m k 2 


> ) (рут! [1 —p(m) F= (7) 
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Renunciaremos a la demostración de esta proposición. Los extremos del intervalo pm) 
y pm) pueden ser tomados de tablas y diagramas para a especiales (а=5 %, a=1 %) уп 
no muy grandes (n< 30). Para п mayores se utilizan fórmulas para el cálculo de los lími- 
tes de confianza que se obtienen del teorema siguiente. 


Teorema 6. Para el intervalo de confianza (5) se cumple que 
lim р, (lp, (M), РАМ) JaV > 1-а 0 <у<1) (8) 


(o sea, (5) es un intervalo de confianza con el nivel de confiabilidad 1 —a para п. =, si 


se hace 
IMAZ a-z, y ны (1-5). 
(n+x a) 


РМ) = 


(9) 


РАМ) = (10) 


Ҳн+= a J 
a 
YZ oa denota al percentil de orden 1— =: de la distribución normal estandarizada. 


La demostración de este teorema se base esencialmente en el Teorema Integral de De 
Moivre-Laplace (ver 7,5, teorema 1), según el cual se cumple en particular que 


М-пу 
lim р, ( $22) 1-0. 


y ny —7) 


De aqui se obtiene, después de algunos cálculos, los límites de confianza indicados en (9) 
y (10). 
Пиѕігагетоѕ el teorema 6 con un ejemplo numérico. 


Ejemplo numérico. Para n=200 y m=88, se obtiene como valor estimado para la 
Ў 88 з 
probabilidad desconocida a Si escogemos a=5 %, entonces Za =1,96, y obte- 
2 


nemos como límite de confianza inferior el número 0,37, según (9), y como límite de con- 
fianza superior el número 0,51, según (10). Como intervalo estimado concreto para la 
probabilidad desconocida se tiene el intervalo [0,37;0,51]. Si escogemos por el contrario 
a=1% entonces obtenemos como intervalo estimado concreto el [0,35; 0,53]. 

Por último queremos advertir que existen medios gráficos auxiliares para el cálculo de 
los límites de confianza concretos. 


10.6.3 Intervalo de confianza para una función de distribución 
desconocida 


El problema de la estimación por intervalo de confianza del valor (desconocido) de la fun- 
ción de distribución F de una variable aleatoria Y en un lugar хе R', es equivalente con 
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el problema de la estimación por intervalo de confianza de la probabilidad del suceso 
aleatorio (Y <x). Así. este se puede tratar, en principio, con los métodos expuestos en 
10.6.2. 


No obstante, queremos explicar otra posibilidad para el tratamiento de este problema. Esta se basa 
sobre la estrecha relación entre la función de distribución empírica W, de una muestra matemática 
(Xp Х,) de tamaño п de la población Х y la función de distribución F de esta población, aclarada 
en el epigrafe 9.3. Para ello supongamos que F es continua. 


Teorema 7. Para el intervalo aleatorio 


Tue x= W-Z, wa) += | ар 


\n Vn 
considerado como intervalo de confianza para y=F(x), se cumple que 
lim PAX, .., Х,) 21) 21-а (xe Ri, 0< y< 1) (12) 


(o sea, (11) es un intervalo de confianza con el nivel de confiabilidad 1—a para п о); aquí y, es so 
lución de la ecuación 


ку) Ур № р-а, (13) 


ka. 


Demostración. Se cumple que 


lim Р, Up.) Xp) эт) =lim P, (> ES +2 ) 
M0 DET] Е М 
=lim P, (Va LAE |<») 
> lim Р, (үп зыр |W, (<p) 
=K(y,) =1-4; 
aquí hemos utilizado el teorema 3 (9.3) (que а decir verdad no hemos demostradó en este libro). 


Para una muestra concreta (x,, ..., х„) se calcula la función de distribución empírica correspondiente 
w, (ver 9.3, definición 1) y se utiliza -suponiendo un tamaño de la muestra suficientemente grande 


Јо х)= Ро а wo А | (14) 


yn yn 


como intervalo estimado concreto para F(x); el número y, puede ser tomado de tablas, La ventaja con- 
siste evidentemente en que se obtienen simultáneamente para todo xe R! intervalos de confianza con- 
cretos para F(x). Para la aplicación de esta estimación por intervalo de confianza se pueden utilizar 
medios gráficos auxiliares. 
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11. Introducción a la teoría de la docimasia 
de hipótesis 


PA | tar 


El siguiente capítulo contiene una introducción a la teoría de la docimasia de hipótesis, 
un campo central ampliamente extendido de la Estadística matemática. Ella ha encontra- 
do una gran aplicación en las más diversas disciplinas científicas. La tarea que se plantea, 
de forma general, la teoría de la docimasia de hipótesis, consiste en indicar métodos y 
procedimientos adecuados e investigar, sobre la base de la Teoría de probabilidades, con 
cuáles de ellos pueden realizarse decisiones objetivas sobre hipótesis -estas son suposicio- 
nes en el marco de un modelo estocástico con ayuda de muestras. La ventaja de la uti- 
lización de tales procedimientos de decisión estriba también en que permiten valorar 
cuantitativamente el número de las posibles decisiones erróneas. 


Después de la introducción de los conceptos básicos fundamentales de la teoría de la 
docimasia de hipótesis (epígrafe 11.2), pasaremos a la denominada dócima de significa- 
ción (epigrafe 11.3) e indicaremos para ella una serie de ejemplos en los epígrafes 11.4 
y 11.5 (entre ellos, dócima t, dócima F y dócima х2). Por último el epígrafe 11.6 contiene 
un ejemplo de aplicación. 


11.1 Tareas que se plantea la teoría de la docimasia 
de hipótesis 


Como se bosquejó ya, la tarea fundamental que se plantea la teoría de la docimacia de 
hipótesis, consiste en indicar y analizar métodos para la verificación de suposiciones acer- 
ca de parámetros desconocidos de un modelo estocástico, denominadas hipótesis estadís 
ticas (o brevemente: hipótesis), sobre la base de muestras. La verificación de una hipó- 
tesis se realiza con ayuda de una denominada dócima de hipótesis (o brevemente: dóci- 
ma). Una dócima tiene por objeto producir una decisión acerca de la aceptación o recha- 
zo de una hipótesis, sobre la base de la muestra. Si contamos con una muestra concreta 
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(х,, .... x,), entonces se tomará con ayuda de una dócima la decisión se rechaza la hi- 
pótesis” о la decisión “se acepta la hipótesis”. (Advertimos expresamente que la decisión 
“se acepta la hipótesis” no significa que ella sea correcta; ver también 9.1. ) Luego, una 
dócima se puede caracterizar en principio por el conjunto de todos los (X -> Xx,), que 
provocan la decisión “se rechaza la hipótesis”. Este conjunto se denomina región crítica 
o región de rechazo (de la hipótesis considerada). 


Antes de que nos ocupemos más exactamente en el epigrafe 11.2 de los conceptos bá- 
sicos mencionados y de otros de la teoría de la docimasia de hipótesis, y en especial, con 
las exigencias mínimas para establecer de forma adecuada lo que llamamos una región 
crítica, queremos considerar un ejemplo para ilustrar la problemática y también el pro- 
cedimiento típico que se utiliza. 


Ejemplo. Supongamos que la población Y posee una distribución normal con varianza 
D?X=0j (с, conocida, por ejemplo, «,=1); el valor esperado EX sea desconocido. Haga- 
mos у= ЕХ y designemos con y, el valor verdadero (pero desconocido) del parámetro y. 
Queremos verificar la hipótesis Н: y,=Y" con ayuda de una muestra matemática 
(Xp -~ X,) de tamaño n de la población Х (y* es un número real dado; puede ser un va- 
lor supuesto, pretendido o también dudoso para el parámetro desconocido; con frecuencia 
tiene el ее de un valor previsto). Para lograr lo anterior consideremos el estadi- 


grafo X, =— г $x el cual representa un estimador apropiado para y (ver 10.4.1). En 
el caso de ak la hipótesis H: y, =y* sea verdadera, X, posee una distribución N (+. i) 


+ 
(ver teorema 2(9.4)) y de esto se deriva que T= TeL 


posee una distribución N(0,1) 


ел 
Para una muestra concreta (x, ..., x,) se rechazará la hipótesis H : y,=y* cuando 
ж 


el módulo del valor t=\n Za calculado, se haga muy grande (ver 5.4, fórmulas 
a 


(17) hasta (19) y figura 35). Para precisar este procedimiento daremos un número peque- 
ño a (0<a <1, por ejemplo, а-0,05) y determinaremos un número #>0, de modo que 
se cumpla que P, q T|>"") =а, о sea, de manera que la probabilidad de que se rechace la 
hipótesis H: y,=Y* sea igual al número © dado- en el caso de que la hipótesis sea cierta. 


En virtud de que P, (|7|>:*) =1 -Р, (|T|< #) =1-(2$(*) -1) =2(1 —Q(6)) =a 
Se obtiene para {* el percentil de orden 1 — E de la distribución normal estandarizada, 


O sea, "2, a; ver también la figura 47. (Para a= 0, > se obtiene 1*=1,96.) Si se cum- 


2, 
ple la inecuación ғ z +. рага el valor с=п = 


calculado a partir de una mues- 
бу 


tra concreta (Xp ..., а аа se rechaza la hipótesis H: y =Y", en caso contrario 
no se rechaza. Con esto, la región crítica K de H está dada por 


х, AA 7 
= f, Ра ИН = с, г. 


y se cumple que: 


PAX, ..., X) К) =P, (Tz, 
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Densidad de 7, en el 
caso que H es verdadera 
(distribución М (0.1} } 


2 Figura 47 


La probabilidad de que se rechace H: y,=y* es igual a a -en el caso de que Н sea ver- 

dadera. Aquí no hemos reparado en la probabilidad de que la hipótesis H: y,=Y* no se 

rechace en el caso de que sea falsa-, o sea, no hemos prestado atención a P, (Tk 2, 2) 
2 


para Үү". Por tanto, con el procedimiento indicado comprobamos sólo si la hipótesis H 
es compatible con la muestra o si existen diferencias significativas. 


11.2 Conceptos fundamentales de la teoría de la docimasia 
de hipótesis 


En la formulación matemática general de la tarea que se plantea la teoría de la docimacia 
de hipótesis partimos de una población X, cuya función de distribución F depende de un 
parámetro yeľ. Designemos nuevamente con Yy, el valor verdadero (pero desconocido) del 
parámetro. Por una hipótesis (estadística) entendemos una proposición de la forma: y, es 
un elemento de un subconjunto no vacío dado Г, de Г. Para ello escribimos abreviadamen- 
te H: т,єГ,, Si Го contiene un solo elemento, T',=([y*), entonces se habla de una hipótesis 


simple y escribimos H: y,=Y*. En el otro caso la hipótesis H: yel, se denomina una 


hipótesis compuesta. Si junto a una hipótesis Ну yyel', se. considera otra hipótesis 
Hg % Г, СГХ, entonces H, se denomina hipótesis nula y H, hipótesis alternativa. 
Sea ahora (Y, ..., X,) una muestra matemática de tamaño n de la población X. Enten- 
demos por una dócima, más exactamente, por una dócima de la hipótesis nula A, frente 
a la hipótesis alternativa H,. un procedimiento con el cual es posible una comparación de 
las hipótesis H, y H, con respecto a la muestra (X,, ..., Х,) y que conduce para toda mues- 
tra concreta (x,,...,x,) a una de las decisiones “H, se rechaza (H, se acepta)” о Н, se 
rechaza (H, se acepta)”. En lo sucesivo nos limitaremos fundamentalmente al caso de la 
hipótesis alternativa H,: y, еГ\Г. y nombraremos sencillamente una dócima de Ну Yyer, 
frente a esta hipótesis alternativa una dócima de H, Aqui utilizaremos para las decisio 
nes correspondientes las formulaciones “H, se rechaza” у “Н, no se rechaza”, y evitare- 
mos hablar en este caso de la aceptación de la hipótesis H, Una dócima semejante se des- 
cribe completamente a través del conjunto К de todas las muestras concretas (X, ..., X,), 
para las cuales se toma la decisión “H, se rechaza”, o sea, a través de la región crítica 
o región de rechazo de H „ Luego, no es necesario diferenciar entre una dócima. y la región 
critica K correspondiente; ел el futuro hablaremos de la dócima К, si la dócima posee la 
región crítica K. Con esto nada se ha dicho aún sobre el establecimiento adecuado de la 
región crítica. Antes que nos ocupemos con ciertas exigencias mínimas que se deben ob- 
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servar en el establecimiento de la región crítica, queremos considerar los posibles errores 
en el procedimiento de decisión que se realiza en el marco de una dócima: 


Но: YysT, es verdadera H, %ЕГ\Гь es verdadera 
H, se rechaza Decisión falsa. (error de Decisión correcta 
primer tipo) 
H, no se rechaza Decisión correcta Decisión falsa (error de se- 
gundo tipo) 


Un error de primer tipo se presenta siempre y cuando la muestra concreta esté situada 
en la región crítica de H, y H, sea verdadera. Las probabilidades de cometer errores de 
primer tipo se pueden estimar (según lo expuesto) mediante 


sup (P, Xp, ..., Х,) EK); 


en el caso de una hipótesis simple H,: y,=y*, la probabilidad de un error de primer tipo 
es igual а Р, (Xp -o X,) EK). 

Un error de segundo tipo se presenta siempre y cuando la muestra concreta no esté si- 
tuada en la región crítica de H, y H, sea verdadera las probabilidades de cometer errores 
de segundo tipo se pueden estimar de forma correspondiente mediante 


pP, (0, o Х) IE) =1— inf P, Xy ..., X) EK). 


Esto nos conduce a valorar una dócima K de H, por medio de la función de potencia de- 
finida a continuación 


Definición 1. Sea K una dócima de H, Entonces la función definida sobre Г por 
G) =P((X,, ..., Х,) EK) (T) a) 


se denomina función de potencia de la dócima K (fig. 48). 


Posible. gráfico Gráfico ideal 
de una función de de una función 
potencia de potencia 
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Por tanto, el valor de la función de potencia en el punto 7(еГ) indica la probabilidad 
de que la hipótesis H, se rechace, calculada bajo la suposición de que y es el valor ver- 
dadero del parámetro. Las probabilidades de cometer errores de primer tipo se describen 
por medio del gráfico de С sobre Г,, las probabilidades de cometer errores de segundo tipo 
por medio del gráfico de 1-С sobre TW, 


Ejemplo 1. Calculemos la función de potencia С de la dócima indicada en el epigra- 
fe 11.1 de la hipótesis H, : y =Y*, para una población Х con distribución М (ү, 03) у con 
Yo desconocido y o conocido. Para уєГ= В! se cumple que 


бе) =P MX, ..., Х,) EK)=P4|T]>2, a) 
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уж PERA туж 
-1-P, (-z. aa E a a 
2 с, с, 2 6, 


) 


Observemos ahora que para una variable aleatoria X con distribución Му, 03), la variable 
XZY 


aleatoria yn розее una distribución N(0,1) (ver en 9.4 la observación 1 después del 


с 
teorema 2), de modo que con Ф(—х) =1-Ф(х) (ver 5.4 (15)) obtenemos (fig. 49) 


y =y 
G0) =1-Ф (2. №" Я )+0 (-:. -ya * > ) 


с с 


—yr уж 
(nc) 
2 O 2 


uje 


% 


0 К Y Figura 49 


Ahora se intentará establecer la región crítica, de modo que las probabilidades de co- 
meter errores de primer y segundo tipos sean lo más pequeñas posibles. Como no se pue- 
den minimizar ambas al mismo tiempo, se procede por lo general en la determinación de 
una dócima, de manera que se busca en la clase de todas las dócimas, para las cuales las 
probabilidades de cometer errores de primer tipo no sobrepasen un número а dado 
(0 <о <1), una para la cual las probabilidades de cometer errores de segundo tipo se ha- 
gan mínimas. La exigencia de que las probabilidades de cometer errores de primer tipo 
no sobrepasan una cota а dada, se considera una exigencia minima para una dócima. 


Definición 2. Sea а (0<а<1) un número dado. Entonces una dócima К de Н,: 
т €X, соп la función de potencia С se denomina una dócima de significación con el nivel 
de significación а (también: dócima de significación con la seguridad estadistica 1—0), si 
se cumple que (fig. 50) 


GM) =P MX, ..., Х,) EK < a (YT). (2) 


Ejemplo 2. La dócima indicada en el epígrafe 11.1 de H, : y, =Y" para una población 
X con distribución М (y, 0%) у con y, desconocido y 02 conocido, es una dócima de sig- 
nificación con el nivel de significación a (ver también el ejemplo 1; se cumple que 


G (Y) =Ф(-2 „)+Ф(-2 .)=2 (:-(:-= ))-") 
ру 1557 2 
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Posible gráfico de una función 
de potencia de una dócima de hipotesis 
con el nivel de significación a 


—— 


Figura 50 


En el epígrafe 11.3 nos ocuparemos aún más detalladamente de las dócimas de signi- 
ficación: los epígrafes 11.4 y 11.5 contienen una serie de ejemplos importantes de tales 
dócimas. 


Nos ocuparemos un poco de la valoración y la comparación de dócimas. El tratamiento de estas ta- 
reas se realiza por medio de las funciones de potencia, sobre la base de las definiciones siguientes: 


Definición 3. Una dócima К de H,: y,eT, con la función de potencia С se llama admisible. si 
se cumple que Я 


inf G (y) > supG(y). (3) 
тег, YT, 
Si H, es una hipótesis simple (H,: y,=Y*), entonces una dócima de H, es. según definición. admisible 
si se cumple que 
Су) > С(т*) (rel). (4) 


Luego, para una dócima admisible de H, la probabilidad de que se rechace H, siendo H, una hipó- 
tesis falsa, no es menor que para el caso en que A, sea una hipótesis verdadera. hablando sin mucha 
precisión. 


Ejemplo 3. Consideremos de nuevo la dócima expuesta еп el epígrafe 11.1 Рага la función de po- 
tencia de esta dócima se cumple (ver ejemplo 1) que 


como (WEE, ¿Jo (УР. ,) 
2 2, 


Я 5, 


Se verifica fácilmente que se cumple 


GN>Doz, «)+Ф(-2,_ a) =G") =a 
2 2 


para todo узу", es decir, que la dócima tomada por base es admisible (fig. 49). 


Detinición 4. Sean K, y К, dos dócimas de H, : y,el', con las funciones de potencia С, y G, res- 
pectivamente. La dócima K, se denomina mejor, si se cumple que 


С) > GAN Wen). Í (5) 


Si К, es mejor que K, entonces la probabilidad de que se rechace la hipótesis H, para la dócima K, 
calculada bajo la suposición de que ye, es el valor verdadero del parámetro, es para todo y seme- 
jante al menos tan grande como para la dócima K, o -hablando sin mucha precisión- la probabilidad 
de rechazo de una hipótesis falsa es para К, al menos tan grande como para K, 

En todas las consideraciones hechas hasta ahora, hemos tomado por base un tamaño de la muestra 
constante. Radica en la naturaleza de la situación el que se puedan hacer proposiciones, por lo general 
más confiables, a medida que crece el tamaño n de la muestra; más confiables en el sentido de una dis- 
minución de las probabilidades de cometer errores de primer y segundo tipos. Por ello se investigan su- 
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cesiones (K,) de dócimas -en particular, dócimas de significación con el nivel de significación a 
(0 <а <1, dado como dato, independiente de n) en dependencia de n: por consiguiente, aquí se cumple 
рага las regiones criticas que K, E В" (ne №. 

Definición 5. Sea (K,) una sucesión de dócimas К, де Ну y,el', соп la función de potencia 
G,(ne IN). La sucesión (K,) se llama consistente, si se cumple que 


lim G, =1 єг“. (6) 


Pur tanto, para una sucesión consistente (K,) la probabilidad de que se rechace H,, calculada bajo 
la suposición de que уеГ\Г. es el valor verdadero del parámetro, converge cuando п о hacia 1, o 
-hablando sin mucha precisión- la probabilidad de rechazo de una hipótesis falsa tiende a 1. 


Ejemplo 4. Consideremos la sucesión (X,) de dócimas de H,: y,=Y* para una población X con dis- 
tribución Му, 03) y con y, desconocido y o? conocida: aquí К, es la dócima de significación indicada 
en el epígrafe 11.1 con el nivel de significación a. Para la función de potencia G, se cumple (ver el 
ejemplo 1) que 


Ex — y? 
lim G,(Y) =lim [o ( я y" TER J)o (- gi И )] 
56 А 9 т НЕ 


ре para y>y* 
0+1=1 para y<y” 


as рага ужу, 


о seu. la sucesión (К,) es consistente. 


11.3 Procedimiento general para realizar una dócima 
de significación 


De acuerdo con la definición, se entiende por dócima de significación con el nivel de sig- 
nificación 0(0 <а <1, dado) una dócima de H,: y,el', con la región crítica К, cuya fun- 
ción de potencia G satisface la condición 


G(y) =P (X; .., Хх.) ЕК) <a (уєГ,) (1) 


(ver 11.2, definición 2). Luego, en una dócima de significación las probabilidades de co- 
meter errores de primer tipo (H, se rechaza, aunque H, sea verdadera) no sobrepasan un 
número prefijado a -el nivel de significación; errores de segundo tipo (A, no se rechaza, 
aunque H, sea falsa) no se toman en consideración. Por ello, las dócimas de significación 
se utilizan solo cuando, sobre la base de una muestra concreta (x, ..., х,) de la población 


X considerada, debe valorarse sind hipótesis Mi sobre la distribución de esta población 


es compatible con la muestra concreta (X, ..., X,), о si se presentan diferencias significa- 
tivas (aseguradas estadisticamente). En este último caso se rechaza H, sobre la base de la 
dócima, en el otro nada se puede esgrimir en contra de la hipótesis H,. El nivel de sig- 
nificación a se debe fijar atendiendo al planteamiento concreto del problema y, en par- 
ticular, a las consecuencias de un error de primer tipo; aquí no se trata propiamente de 
un interés matemático. (Con frecuencia se eligen en las aplicaciones a=5 %, a=2 % o 
a=1 %.). 
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En la determinación de la región crítica КС В" se procede por conveniencia, de modo 
que К se describa mediante condiciones impuestas a los valores de un estadígrafo apro- 
piado T. Más exactamente, si q es una función real definida sobre el conjunto R" y T 
denota al estadígrafo p(X,, ..., Х,), T=0(Y,, ..., X,), entonces se elige para el nivel de sig- 
nificación а prefijado una parte K* (lo menor posible) de la imagen de T, tal que se cum- 
pla que P (ТеК*) < а para todo yer, Para la región crítica К =((x,, Ca Е 
Ф (х,,...,Х,) ЕК* se cumple entonces que 


Р(Х, ..., Х,) €K) < а para todo yTy 
es decir, K es una dócima de significación con el nivel de significación a (ver el ejemplo 


4 ув 
del epígrafe 11.1 allí es T=vn Y y E lza} 
$ 2 


б, 


La variable aleatoria Т se llama en este contexto variable de dócima. Para fijar la re- 
gión crítica imagen К*, de modo que se cumpla que P, (Te K*) < a (уєГ,), se tiene que co- 
nocer totalmente la distribución de la variable de dócima T bajo la suposición de qu “H, 
es verdadera”, por lo menos asintóticamente -en el caso de que el tamaño de la muestra 
п sea grande (o sea, cuando n Noo). Se recomienda utilizar como variables de dócima 
aquellas variables aleatorias que se deriven de estimaciones puntuales para el parámetro 
desconocido. Como К* determina de forma univoca la región crítica К de H,, se puede 
renunciar a la indicación explícita de K y designar entonces K* como región crítica o de 
rechazo de H, 

En la mayoría де los casos K* es de la forma {t:t <a}, {t:t>b} o [t:t<a o t>b). 


El procedimiento general para realizar una dócima de significación con el nivel de sig- 
nificación a prefijado, se puede esquematizar de la manera siguiente (ver también el ejem- 
plo a continuación) : 


0. Condiciones sobre la población 

1. Planteamiento de una hipótesis Ну. 

2. Construcción de una variable de dócima o estadigrafo T. 
3. Elección de la región crítica К“. 


4. Regla de decisión: Para una muestra concreta existente (x,, ..., x,) se calcula el valor 
t del estadigrafo Т. Si se cumple que teK*, entonces se rechaza a H, en caso contrario 
(tg K*), nada hay que objetar contra H, (fig. 51). 


Densidad de la variable de 
dócima T, en el caso que Hes 


verdadera 
усгоаасга 


1ЕК* 
(- rechazar a Ho) (—( no rechazar Ho )į( -rechazar H, ) 


К= ска 0 1>b) Figura 51 


Los pormenores de una dócima, en particular, la elección del nivel de significación y 
de la región crítica, se deben prefijar necesariamente antes de la utilización de una mues- 
tra concreta. En caso contrario, es siempre posible -mediante una elección aceptable del 
nivel de significación y o mediante una fijación ingeniosa de la región crítica- proceder 
con la hipótesis “según nuestros deseos”, por ejemplo, producir un rechazo si este es el 
deseo del que trabaja. Está claro que para un proceder semejante la aplicación de los mé- 
todos de la Estadística matemática pierde todo sentido objetivo. 


Consideremos aún un ejemplo; con él queremos también abordar la estrecha relación 
entre las estimaciones por intervalo de confianza y las dócimas de significación. 


Ejemplos 

0. Supongamos que Y posee una distribución uniforme sobre el intervalo [0,7,] y que 
Ya>0 es desconocida. 

1. Ну: y =Y* (y* número positivo сера). 

2. H, es seguro falsa si para una muestra concreta (x,, ..., x,) de la población Х se cum- 
ple la relación máx [x,, ..., x,)>Y*. Esto sugiere utilizar como variable de dócimà la va- 
riable aleatoria T=máx Í(X,, ..., X,), donde (X,, ..., X,) es una muestra matemática de 


tamaño п de la población Х. Si H,:y,=y* es verdadera, entonces la función de distribución 
F, de la variable de dócima T está dada a través de 


0 para x< 0, 
х п 
Ех) = ( = ) para 0< x< y*, 
y Я 
1 рага х> Y*, 


(ver 10.2, ejemplo 2). 


3. Establezcamos la región crítica en la forma K*=1t: t<a o t>b) con 0< a<b< у; 
la hipótesis H, será rechazada si para una muestra concreta (x, ..., x,) se cumple una 
de las inecuaciones máx lx, ..., x,)<a о máx [x,...,x,)>b. Ahora deben determinarse 
los números a y b de modo que se cumpla que 


P, (TeK*) =P (T <a) +Р„(Т>Ь) =0 
Para esto sean primeramente а, y а, números no negativos cualesquiera con a, +а,=а. De 


РАТ <a) =Fa) -(=)' =a, resulta que а= а, y*, y de 
Y 
b п 
РАТЬ) =1-F,(0) =1-( )"=а, 
е. 


resulta que b= V1- —a, 7*. Рага K*=\t: t< ya, Y о {> \ 1-0, 7*} se cumple con esto 


que P, (ТеК*) =a ; 
4. Regla de decisión: Si para una muestra concreta (x,, ..., x,) se cumple una de 


las inecuaciones máx {x, ..., х,) <Y a, үк o máx (x, ..., x,)>Y1-a, y*, entonces 


Ну %= se rechaza; en caso contrario nada hay que objetar contra H, sobre la base 
de esta dócima. 
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Con esto hemos descrito totalmente una dócima de significación con el nivel de signi- 
ficación а para la hipótesis H,: y,=y* sobre el parámetro y, de una variable aleatoria dis 
tribuida uniformemente sobre el intervalo [0, y, |. Para la ejercitación de los conceptos 
introducidos en el epígrafe 11.2 retomaremos aún este ejemplo más adelante. 


La función de potencia С de esta décima está dada, como el lector puede comprobar, a través de 


A 
1 para 0 <у< Ya, ү, 


И Ya п ГТ E 
б) = { о, E para Ya, y*< ys Yl-a, у, 
Y 


y A A 
1-(1-а) | — рага \1-a, ү*< ү. 
Y 
Si gonsideramos la sucesión (K$) de dócimas de significación con el nivel a y con 


п а 
к=, убо г> Via, y*),a,+0,=4, 


entonces se cumple para la sucesión (G,) de las funciones de potencia correspondientes la relación 
lim С) =1 (ужу), es decir, la sucesión (K,*) es consistente (ver 11.2, definición 5). 


Escojamos especialmente a,=0 y а, =а, entonces obtenemos az\ar y b=y". Para la región critica 
я 
K” de la hipótesis H,: y,=y*se cumple entonces que K =(t:t< Var o г>): рага la función de 


рага 0 <у< Ya з, 


1 
hd A a 
Gm) = a (=) рага Var < ү< y”, 
Y 


1-(1 ae у para y*< y. 


potencia G, correspondiente se obtiene que 


Se verifica fácilmente que se cumple С (у) > С,(у°) =a. La dócima К, es, por tanto, una dócima admisible 
(ver 11.2, definición 3). Escojamos por el contrario a,=4 y 4,=0, entonces obtenemos que a=0 y que 


b=\ 1—a y*. Para la región crítica КУ de la hipótesis H,: y, = y* se cumple entonces que 


Ke=Í(t:1<0 O t> V1-a y*)=: К; рага la función de potencia G, correspondiente se obtiene que 


A 
0 рага 0<y< Vi—a r*, 


С, (Y) = е ln я 
- 1—(1 а) (=) рага Vi -0 y*< y. 
Y 


rn 
La dócima К$ no es admisible, por ejemplo, se cumple que G(Y 1—ay*) =0<G¿y*) =a. Рог lo demás, 


las dócimas K? y КЗ se pueden comparar (en el sentido de la definición 4 (11.2)), y азі, la dócima КТ re- 
sulta mejor que la dócima АЗ, es decir, se cumple que G (y) > G (y) para todo y>0. (El lector debe re- 
flexionar en cada ocasión acerca de la significación desde el punto de vista del contenido de estas propo- 
siciones.) 


Como habíamos anunciado, queremos señalar sobre la base de este ejemplo la estrecha 
relacion entre las estimaciones por intervalo de confianza y las dócimas de significación. 
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El intervalo de confianza ЛХ.. .... X,) con el nivel de confiabilidad 1—a, indicado en el 
ejmplo 1 (10.5), 


Mi X= = —— | con y, =máx (Х,, .... Xh 


contiene exactamente. para una muestra concreta (xj. .... x,), el valor y* para el cual la 
hipótesis H, : y, =y* по se rechaza en la dócima K* anterior con el nivel de significación 


| р t 
a. (Esto quiere decir que y*e Лх,. .... х,). о sea, —— < ү* < ‚ con 


n т 
i=máxlx,. .... x,).es equivalente а Va, з" < 1< Y l-a, у". оа яК", y esto es lo mis- 


mo que decir que H,:y,=Y* no se rechaza. 

De forma general. si ЛХ. .... X,) es un intervalo de confianza соп el nivel de confia- 
bilidad 1 -a (0 <а <1) para un parámetro y. entonces la regla de decisión siguiente define 
una dócima de significación de H,:Y,=y* con el nivel de significación a: Para una muestra 
concreta (х,. .... х,) se construye el intervalo de confianza concreto J(x,, ..., х,). Si se 
cumple que y*g J(x,. .... x,). se rechaza a H, en el otro caso (y*eJ(x,. .... x,)) no. 


11.4 Ejemplos importantes de dócimas paramétricas 


Denominaremos dócima paramétrica a aquella destinada a la verificación de una hipótesis 
sobre un parámetro desconocido de una distribución de probabilidad рог lp demás cono- 
cida; aquí se utiliza fundamentalmente el conocimiento acerca de la distribución de pro- 
babilidad. 

A continuación brindamos algunos ejemplos importantes de dócimas paramétricas. En 
ellos se trata de dócimas de significación (con el nivel de significación a prefijado, 
0 <a<1), y se toma рог base el esquema general indicado en 11.3. Estas dócimas para- 
métricas son: 

Una dócima para el parámetro и de una población con distribución normal y varianza 
desconocida (dócima г simple). 

Una dócima para la igualdad de los valores esperados de dos poblaciones independientes 
con distribuciones normales y varianzas iguales (aunque desconocidas) (dócima г doble). 
Una dócima para el parámetro о? de una población con distribución normal y valor es- 
perado desconocido (dócima de varianza x?). 

Una décima рага la igualdad de las varianzas de dos poblaciones independientes con dis- 
tribución normal y valores esperados desconocidos (dócima F), y por último: 

Una dócima para una probabilidad desconocida. 


11.4.1 Dócima Е simple 


0. Supongamos que Y es una variable aleatoria con distribución М (7,6); Y, y 6: sean 
desconocidas. 
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1. H,: Y,=Y* (y* número real prefijado). 
Esta hipótesis es, tomada rigurosamente, una hipótesis compuesta que se debería сагас- 
terizár de forma más exacta por H, : (y, 02 e (0и, 03): 02>0). $1 с? es conocida, entonces 
se trata de una hipótesis simple y se utiliza la dócima indicada en el epígrafe 11.1). 


2. Para la construcción de la variable de dócima tomemos por base el estadigrafo 


arei | 
X, =— > Х, que en 10.4.1 se mostró como estimador puntual adecuado para Y, Га 


ёе] 
; Е ] а o 
variable X, posee, en el caso en que H, sea verdadera, una distribución № (r. 2) 
n 


(ver 9.4, teorema 2). Estimemos el parámetro desconocido с, por medio del estimador 


puntual S А = (Х,-Х, .)? (ver 10.4.2 b)) y utilicemos como variable de dócima la 
: п- i=l 
Ү уж 
variable aleatoria T=yn "7 
e = 


que, en el caso en que Но sea verdadera, posee una distribución t con n—1 grados de li- 
bertad (ver 9.4, teorema 5) (fig. 52). 


Densidad de T, en el caso 
que Н, es verdadera 


(distribución г con n ~ | 
grados de libertad) 


Sta Figura 52 


3. Establezcamos la región crítica K* en la forma К*={: А >") (ver fig. 52) y deter- 
minemos # de modo que se cumpla que 


PATeK") =P |T|> г) =1 —P (PS TS Г) =a. 


PR RE > e a RE К 
De aquí se obtiene para /" el percentil de orden 1— — de la distribución Е con n—1 gra- 


‚о 
dos de libertad (=t „) y соп esto la región crítica K*= f: lar, a} 
2 Area 


EIs 


4. Regla de decisión: Para una muestra concreta (х... X,) se calcula х, у 52, de aquí 


X -y* В А 
:= үп —_———, у se rechaza H, : y, =y* si y solo si se cumple que teK*, es decir, 


194 


11.4.2 Dócima + doble 


0. Sea X una variable aleatoria con distribución №(и,,02) y Y una variable aleatoria con distribución 
N(u, 03). Sean:X y Y variables aleatorias mutuamente independientes; los números Uy. И» 0] y 9: sean 
desconocidos y partamos de la condición o? =0}. (La última condición se verifica, dado el caso. con la 


dócima F que se presenta en 11.4.4.) Además, sean (Xo ..., Xm) y (Y. .... У») muestras matemáticas 
de tamaño т y м, respectivamente, de las poblaciones Y y Y a que corresponden, 
1. Hy 4,=4, 


2. Variable de dócima 


a 7,-х. | ттт +n-2) 
№т-1)52 +0110) 52, ds 


La variable de dócima T posee, en el caso en que:H, sea verdadera, una distribución 1 con m+n-2 
grados de libertad. Р 
(Esto puede verificarse sin dificultad considerando la independencia de Х y Y. utilizando los teoremas 
2 y 4 de 9.4 y los teoremas 6 y 7 de 6.5.) 


3. Región crítica к=}. : jel >t Р | 
т+п-2:1-- > 


4. Regla de decisión: Para muestras concretas (ху, ..., Хи) у Wi.. y,) se calcula Хи У, Sm Y я А: 
де адш 
Ya х | m-:n(m+n-—2) 
t= meee eaa 
Ует-ря „+а-0я, о 
y se rechaza H,:H,=4, si y solo si £eK*, es decir, si se cumple que >. Le о. 
а 


Si los números С? у 03 son conocidos (no necesariamente iguales), se utiliza entorices la variable de 
dócima А 

YX. 

СИЕ 

—+— 

m n 


» 
que. en el caso en que H, sea verdadera, posee una distribución N(0,1), y la región crítica 


к=.) 
. 


La interrogante más general acerca de la verificación de la igualdad de los valores esperados de más 
de dos variables aleatorias independientes con distribución normal conduce a problemas que pertenecen 
а la rama del llamado análisis de varianza. En el marco de nuestra introducción:a la Estadistica ma- 
temática no podemos adentrarnos en esto. , 25 у 
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11.4.3 Dócima x? 


0: Sea X una variable aleatoria con distribución Мирт); И, y Yo sean desconocidos. 

1. H: Y= yti’ número positivo prefijado). 

2. Para la construcción de la variable de dócima tomemos por base el estadigrafo 

s = sb (Х,-Х) 2 
n=l E 

que en 10.4.2 b) se mostró como estimador puntual adecuado para y, La variable alea- 
toria 
_ ("-1)52 
+ 
posee, según el teorema 4(9.4), en el caso en que H, sea verdadera, una distribución x? 


con n—1 grados de libertad. 
3. Establezcamos la región crítica en la forma K*=(1:t<a o t>b) (fig. 53) y determi- 


T 


q 
nemos a y b de modo que se cumpla que РАТ<а) =P T> b) =— y por consiguiente, 
que P,(TeK*) =a. De aquí se obtiene para a y b los percentiles de orden = yi- = y 

respectivamente, de la distribución x? con n—1 grados de libertad, osea, a=% aa Y 


b=% <- Con esto obtenemos la región crítica 1 
SER 


к=: e o A! 


Densidad de T, en el caso 
t que H, es verdadera 
(distribución X* con n— 1 grados 
de libertad) 


2 
2 


Cl as 

Eshitsa ng O AA Figura 53 

4. Regla de decisión: Para una muestra concreta (x, ..., x,) se calcula 37; de aquí 

t= cos, y se rechaza H,:y,=Y*si y solo si teK* , es decir, зі se cumple ES «0 
EY 


Y 
to 


i12. 
я-1;1 | 


11.4.4 Dócima F 


0. Sean X y F variables aleatorias con distribuciones Мф, 01) y N (u,,0)), respectivamente. Sean las 
variables aleatorias Ху Y mutuamente independientes; los números p, и, 0? y 0? sean desconocidos. 
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Además. sean (Y. .... Хи) y (Y. .... Y) muestras matemáticas de tamaño m у п. respectivamente, 
de las poblaciones X y Y a que corresponde cada una 


і. Ho: o=o; 
2. Dócima de prueba: 


E os Е ЕІ = 
т= 55" соп S? „= — У (AX)? Si = — > (Y,-F yA 
a n-1 


mt a jsi 


ув 
La variable de dócima Т posee. en el caso en que H, sea verdadera, una distribución F con 
(т 1. n-1) grados de libertad (ver 9.4, teorema 6). 
3. Región crítica: 


K*=§t:t<F 


m-in-1; 


о DOF aa 122 k aquí Fm-in-i:p denota al percentil de orden В 
a 


|е 


de la distribución F соп (m—1, n—1) grados de libertad (fig. 54). 


4. Regla de decisión: Para muestras concretas (х,, .... Xm) Y Oy ++.» Ya) se calcula Z „у si, де aquí 
E 
==. y se rechaza Н,:0)=03 si y solo si reK* es decir. si se cumple que 1<Р 20 
yan 2 
a mola L 
Densidad de Л. en el caso que Hes verdadera 
(distribución / con m don  Tgrados de liber 
tad ) 
0 
RS НЕЗА . 01 . 
| £ m La E) > м -1п м1) Figura $4 


11.4.5 Dócima para una probabilidad desconocida 


0. Sea A un suceso aleatorio que se presenta en el marco de un experimento aleatorio 


con la probabilidad p,=P(4);p, sea desconocida. Consideremos la variable aleatoria 
Y= |. en el caso en que А ocurra, 


en el caso en que А ocurra. 


Además, sea (X,, ..., Х,) una muestra matemática de tamaño n de la población X. 
1. A.:p,=pP" (p* número prefijado entre cero y uno). 
2. Variable de dócima 


EMI E oM Х,. 
№01) ía 


(Luego, la variable aleatoria M indica la frecuencia aleatoria absoluta de A. en n repeti- 
ciones indepedientes del experimento aleatorio tomado por base y posee con esto, en el 
caso en que H, sea verdadera, una distribución binomial con los parámetros пу p*.) La 


T= 
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variable de dócima T posee, en el caso en que H, sea verdadera, asintóticamente (es decir, 
cuando п —» œ) una distribución N(0.1), sobre la base del Teorema Integral de De Moivre- 
Laplace. 

3. Región crítica: K*= f : | >Z a} (Se cumple que 


lim PATEK" =lim P, | [LA 


pS 
Vara- 


=1-lim P,, | M-np" 


Ao ae 
np*(1—p*) 
=1—{(1-а) =q, 


о sea, K* define para п — œ una dócima de significación con el nivel de significación а.) 
4. Regla de decisión: Para una muestra concreta (x, ..., x,) (=nm-úplo de los números 


п 
cero y uno) se halla "=> x, (=número de la ocurrencia de А еп п experimentos), se 
izl 


calcula 


тпр" 


t= —_— 


Vapi р") 


y se rechaza a Н,: p,=p* si y solo si teK*, es decir, si se cumple que 


т пр" 


y n-p") 


Observación. Si n es tan pequeña que una aplicación del Teorema Integral de De 
Moivre-Laplace no nos parece justificada, se construye una dócima de significación par- 
tiendo directamente de la distribución de la variable de dócima M(distribución binomial 
con los parámetros пу p*, en el caso en que Нор, =p* sea verdadera). 


11.5 Ejemplos importantes de dócimas no paramétricas 


Por una dócima no paramétrica entendemos aquella destinada a la verificación de una hi- 
pótesis acerca de una población, para la cual no se toman en consideración los conoci- 
mientos sobre el tipo de distribución de probabilidad de la población considerada. 

Como ejemplos importantes de dócimas no paramétricas presentaremos a continuación, 
utilizando de nuevo el esquema general indicado en 11.3, dos dócimas de ajuste (décima 
de ajuste X*, dócima de Kolmogorov), dos dócimas de homogeneidad (dócima de homoge- 
neidad х? dócima para dos distribuciones) y una dócima de independencia (dócima de in- 
dependencia %?). 
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Por una dócima de ajuste entendemos, de forma general, una dócima para la hipótesis 
de que la verdadera función de distribución F, verdadera (pero desconocida) de una po- 
blación es igual a una función de distribución F* prefijada. Se denomina dócima de ho- 
mogeneidad a una dócima sobre la igualdad de las distribuciones de probabilidad (desco- 
nocidas) de varias poblaciones. Por una dócima de independencia se entiende aquella que 
sirve para la verificación de la hipótesis de que dos o más variables aleatorias conside- 
radas sean mutuamente independientes. 
ócima de ajuste X? 


, is ian 


1. Hp F,=F*"(F* función de distribución prefijada). 
2. Construcción de la variable de dócima: Se realiza una partición de la imagen 


de Х en k intervalos /=[£, č.. j=l, ..., К -denominados clases- Соп 
< E <E<..<E<t.¡< +0, siendo k(> 2) un número natural arbitrario. Para una 
muestra matemática (Х,, ..., Х,) de tamaño n de la población considerada. denote M, la 


denominada frecuencia de clase (aleatoria) de la clase [, esto es, el número (aleatorio) 
de las variables de la muestra Х, que están situadas еп Г. (Luego se cumple que 


k 
> М, =п). La variable aleatoria M, está distribuida binomialmente con los parámetros 
пур, соп р, = Р(& 1) -F*(£), en el caso en que H,: F,=F* sea verdadera (/=1. .... К): 
М, пр, 


ира —P) 


(ver teorema 1(7.5)). Se puede mostrar que la variable aleatoria (utilizada más adelante 
como variable de dócima) 


я k 
т-У Кры У и 


1-1 пр, mo ПР, 


posee asintóticamente (es decir, cuando п =» œ) una distribución №0, 1) 


en el caso en que H,sea verdadera, posee asintóticamente (es decir, cuando n — оо) una 


distribución x? con k—1 grados de libertad. (Renunciaremos a la demostración relativa- 
mente difícil de esto.) 


3. Si para una muestra concreta (x, ..., х,), las frecuencias de clase m, halladas se di- 
ferencian notablemente de los valores mp, esperados, dada la validez de H, entonces la 
variable de dócima T aceptará valores grandes y se rechazará a H,. Por ello establezca- 
mos К* en la forma K*=(11: t>t*) y fijemos t*, de modo tal, que se cumple que 

lim Р, (ТеК*) =lim Pp (T>t*) =а. 
Como T, en el caso en que H,:F,=F* sea verdadera, posee asintóticamente (es decir, 
cuando n =» œ) una distribución x? соп k—1 grados de libertad, se obtiene para 1* el per- 
centil de orden 1 —a de la distribución x? соп k—1 grados de libertad o sea, t*= X iw 
y con esto К*={1:1> 1-a) (fig. 55). 
4. Regla de decisión: Para una muestra concreta (x,, ..., х,) se halla, con respecto a 


la partición en clases elegida, las frecuencias de clase absolutas m, (¡=1, ..., К), se cal 
culan las probabilidades p(¡=1, ..., К) fijadas por la hipótesis №, y con esto 
m? 
t= —-п 
jar ПР, 
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Si se cumple que teK”, o sea, si 
k m,? 


jm ПР) 


entonces se rechaza a H,:F,=F*, en el otro caso по. 


= n> Rano 


Densidad de T para n - œ, еп el caso 
| ue H, es verdadera (distribución x? 
con k- 1 grados de libertad) 


2 
Ki =lt:t>xX ТА Figura 55 


Para la fuerza de la dócima de ajuste x? es naturalmente importante la elección de la 
partición en clases. En la práctica se eligen frecuentemente intervalos de igual longitud 
(en algunos casos con excepción de los intervalos de los extremos). Se ha mostrado con- 
veniente eleyar el número de las clases para mayor tamaño n de la muestra (por ejemplo, 
kælgn, k= Y ; aquí se recomienda fijar las clases 1, de modo que se cumpla que np,> 1 
G=1, ..., Ю. 


11.5.2 Dócima de Kolmogorov 


0. Supongamos que la función de distribución F, de la población Y es continua. 
1. H,:F,=F* (F* tunción de distribución continua prefijada). 
2. Variable de dócima: T=V5 sup |m -Px) |; aquí W,(x) denota el valor de la función de 
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distribución empírica de una muestra matemática de tamaño п de la población Х en el punto х. La va- 


riable de dócima T posee para n + =, en el caso en que H, sea verdadera, la función de distribución 
K (ver 9.3, teorema 3), dada por 


0 para у< 0, 
Ко) = < 
(ye rr para y>0. 


ka-a 


3. Región critica: K*={rt> y,}, aquí ya denota la solución de la ecuación KO) =1 = –а. (La pro- 
babilidad de que T tome valores > y, converge, en el caso en que H, sea verdadera, hacia a para 
n + =. } 


4. Regla de decisión: Para una muestra concreta (x,, ..., x,) se halla la función de distribución em- 


pírica concreta w, correspondiente, se calcula г= п sup [w -Pew |у se rechaza a H,:F, =Р* 
"<< 
si y solo si tex”, es decir, si se cumple que 


Va JA |w -Px |> Ya: 


11.5.3 Dócima de homogeneidad x? 


0. Supongamos que las variables aleatorias Х у Y son independientes. Denctemos la 
función de distribución (desconocida) de Ху Y con F, y С, respectivamente. 
1. H F= Gy 
2. Construcción de la variable de dócima: Se realiza una partición de la imagen 
(cómun) de las variables aleatorias Ху Y en k intervalos disjuntos I(¡=1, ..., k); aqui 
k(> 2) es un número natural arbitrario. Si M, denota la frecuencia de clase (aleatoria) de 
la clase [, para una muestra matemática (X,, ..., Х„} de tamaño m de la población Х у 
N, la de la clase /, para una muestra matemática (Y,, ..., Y „) de tamaño п de la población 
Y, entonces la variable de dócima 


posee, еп en el caso en que H, sea verdadera, asintóticamente (es decir, cuando т == < 
уп => œ) una distribución x’ con k—1 grados de libertad. 


3. Si para muestras concretas (xX, ..., Xm) у (у. ..., у,) las frecuencias de clase relativas 
m Mo о А 3 
— y — 0=1, ..., k) se diferencian notabiemente, entonces T aceptará valores grandes 
m n 


y se rechazará a H, Por ello, fijemos К" en la forma K*=(1: 1> 2 „|. (La probabili- 
dad del suceso (TeK*) converge hacia а cuando т =» œ y n =» œ, dada la validez de Н, 
(fig. 55.) 

4. Regla de decisión: Para muestras concretas (x,, ..., Xn) y (Yp ..., y,) se halla con res- 
pecto a la partición en clases elegida las frecuencias de clase absolutas m, y 
n(=1,..., К), se calcula de aqui 


m 
У 1 m n 
t=mn G A 
m+n im n 


pan 


y se rechaza a H,: F,=G, si y solo si se cumple que а 


11.5.4 Dócima para dos distribuciones 


La dócima para dos distribuciones se puede realizar rápidamente, es una denominada dó- 
cima rápida, con objeto de verificar la hipótesis H,:F,=G, sobre la igualdad de las fun- 
ciones de distribución desconocidas, supuestas continuas, de dos poblaciones independien- 
tes X y Y, sobre la base de muestras de igual tamaño de estas poblaciones. En especial 
se aplica cuando se espera que F,+G,. En principio, la dócima para dos distribuciones es 
una dócima para una probabilidad desconocida (ver 11.4.5). En el caso en que H, sea ver- 


; 1 з 
dadera, el suceso aleatorio A =(X— Y <0) =(Х < Y) posee la probabilidad a Se verifica 
25 1 " О 
entonces Іа hipótesis №, : P(A) = qa (por ejemplo, con la prueba indicada en 11 4.5) y se 


rechaza a H,, si H, se rechaza. 
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11.5.5 Dócima de independencia х: 


El punto de partida es una población bidimensional (Y. Y). En la explicación de la dócima 
de independencia x?, que se denomina también dócima de independencia en tablas de con- 
tingencia, queremos limitarnos рага una mayor sencillez al caso de variables aleatorias 
discretas Ху Y y aceptar que Ху Y toman los valores 1. .... r y l....,s, respectivamente. 


1. H,: X y Y son mutuamente independientes (equivalente a esto es la validez de la re- 
lación 


p= Р(Х =i, Y =k) =MX=0DPY=k)=p, -P, 
para i=1, .... гу k=1, ..., 5 (ver 6.4, teorema 1). 


2. Construcción de la variable de dócima. Sea ((Х,. Y), .... (Х,. Y,)) una muestra ma- 
temática de tamaño n de la población (bidimensional) (X, Y). Denotemos con N, el núme- 
ro (aleatorio) de las variables de la muestra, cuya primera componente es igual a i y la 
segunda a k. Además, sea 


N = > No 0) Na 
kal 11 
(Se cumple entonces que > У? N=) № = > N,=n,) 
I=} К] 


1 k=1 


Consideremos la variable aleatoria 


NN, \? 
r 5 (^.- +) 

y A 
NN, 


1=1 ket 


Se puede mostrar que T posee, en el caso en que H, sea verdadera, asintóticamente (es 
decir, cuando n =+ œ) una distribución у? con (r—-1)(4—1) grados de libertad. 


3. Región crítica: K*=(1: >, осол) (La probabilidad del suceso (ТеК*) converge 
hacia a cuando n =» œ, dada la validez de Н,). 


4. Regla de decisión: Para una muestra concreta ((x,, y,), ..., (х„ y,)) se hallan los nú- 
meros п, (=número de los elementos (і, К) en la muestra), 


У 


| „=>, па N= >` л (i=1, ... Py k=1, БЕ 5), 


k=l i=l 


se calcula de aqui 


=" У DR 


y se rechaza a H, si y solo si se cumple que >52, 1-с 

Разг la realización práctica de esta dócima se recomienda la representación de la mues- 
tra concreta en una llamada tabla de contingencia, que contiene todos los valores numé- 
ricos necesarios para la dócima. 
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(En el caso г=5=2 se denomina la tabla de contingencia correspondiente tabla de cuatro 
entradas o tablas de 2 x 2) 


11.6 Ejemplo de aplicación 


En 286 aspirantes para estudiar Matemática fueron investigadas dos características, la 
calificación X del examen de ingreso y la nota Y de la prueba de nivel en la asignatura 
Matemática. El resultado está agrupado en la tabla de frecuencia siguiente (tabla de con- 
tingencia); posteriormente aclararemos la significación de los números indicados en pa- 
réntesis y corchetes: 


(26,38) (19,87) 
(especialmente | 40 " 
[13,62] [10,87] 


(14,54) (10,95) 
8 18 1 
[6,54] [10,95] 


(apto condi- 27(=п,) 


cionalmente) 


4 
(no apto) 


(36,08) (27,17) 
18 37 12 
[18,08] [9,83] 


67(=м. ) 
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Concebimos X y Y como variables aleatorias (discretas) y queremos verificar la hipó- 
tesis H,: Ху Y son mutuamente independientes, con la prueba de independencia x? (tra- 
tada en 11.5.5) con el nivel de significación a4=5%. Para nuestro ejemplo se cumple que 
r=4, 5=3 y, por tanto, r—-D(s-1) =(4-1)3-1)=6. Como el percentil de orden 
1—a=0,95 de la distribución x? con 6 grados de libertad es igual a 2,6, se obtiene para 
la región crítica, К*={1:1> 12,6}. Calculemos ahora el valor г, 


5 $ (a-y 


isl kal пп, 
n 


de la variable de dócima T para nuestro ejemplo. 
Se cumple que n=286, r=4, s=3. Los números п,, л, y n, se deben tomar directamen- 
te de la tabla de contingencia indicada anteriormente. En esta tabla hemos señalado den- 


: пп 
tro de los paréntesis los números 2 y dentro de los corchetes los números 
n 


п 0] (1=1, 2, 3, 4,; k=1, 2, 3). Con esto se obtiene 
n 


13.622 10,872 2,742 112 62 52 


26,38 ti, 87 2,74 7 58 8 
6,542 DOS AS 9,83* Е 


14,54 +T, 95 1,51 36,08 27,17 "э, 75 


=7,03 +5,94 +2,74+1,57 +0,62 +3,12 +2,94 +4,54 +0,17 +9,06 +3,56 +18,16 
=59,45 


Por consiguiente, el valor { está situado en la región crítica y rechazamos la hipótesis 
H, de que la calificación del examen de ingreso para estudiar Matemática y la nota de la 
prueba de nivel en la asignatura Matemática sean mutuamente independientes. (Al mismo 
resultado llegaríamos también utilizando el nivel de significación a= 1%; se cumple que 
XL. =16,8 <59,45.) 
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12. Tablas de algunas distribuciones importantes 


Las tablas sobre las distribuciones binomial, de Poisson y normal, dadas en los epígrafes 
12.1, 12.2 y 12,3, ofrecen una visión numérica sobre estas distribuciones de probabilidad. 
Por el contrario, las tablas dadas en los epigrafes 12.4, 12.5, y 12.6 para las distribucio- 
nes de prueba de la Estadística matemática (distribuciones x?, гу F) contienen solamente 
algunos percentiles, los cuales deben ser suficientes para la realización práctica de las más 
importantes estimaciones por intervalo de confianza y dócimas de significación tratadas 
en este libro. La utilización de las tablas se demostrará con un ejemplo. 

Se puede encontrar en otra bibliografía tablas más completas para la realización de pro- 
cedimientos de la Estadística matemática. 


12.1 Tabla de la distribución binomial 


La tabla 1 contiene probabilidades de la distribución binomial, 
P(X=k) =b(k; n.p) -(" ) p*(1-p)"+* К=0, 1, ..., A, 


para п=1, 2, ..., 10, 15. 20 y algunos p< 0,50. Los lugares vacíos significan aquí 
b(k; n, p) <0,0005. 

Para р>0,50 se utiliza la relación b(k; п.р) =b(n—k;n, 1-р) (ver 4.5, teorema 1, fór- 
mula (4)). 

Рага n grandes y р pequeños con np< 20, se iguala np=/. y se toma como base la re- 
lación b (k;n, р) = р (КА), derivada del teorema límite de Poisson (ver 4.7, teorema 3 y 
fórmula (9)). Para esto se toman los números p(k;A) de la tabla de la distribución de Pois- 
son (ver 12.2), 

Para n grandes se recomienda la aproximación de la distribución binomial a través de 
la distribución normal sobre la base del Teorema Integral de De Moivre-Laplace (ver 7.5, 
teorema 1 y fórmula (2)). 
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Tabla 1 


Ejemplo: b(3; 8, 0,30) =0 254 


0,990 0,980 0,950 0,900 0,850 0,800 0,750 0,700 0,600 0,500 
0,020 0,050 0,100 0,150 0.200 0,250 0,300 0,400 0,500 


0,810 0,722 0,640 0,562 0,490 0,360 0,250 
0,020 0,039 0,095 0,180 0,255 0,320 0,375 0,420 0,480 0,500 
0,002 0,010 0,022 0,040 0,062 0,090 0,160 0,250 


0,614 0,512 0,422 0,343 0,216 0,125 
0,029 0,058 0,135 0,243 0,325 0,384 0,422 0,441 0,432 0,375 
0,001 0,007 0,027 0,057 0,096 0,141 0,189 0,288 0,375 

0,001 0,003 0,008 0,016 0,027 0,064 0,125 


о Ф л Б омо ~ о 


n| k|p=0.01 0,02 


0,05 

8| 010.923 0.851 0.663 
110.075 0.139 0.279 
0.010 0.051 
0.005 

0.834 0.630 
0.153 0.299 
0.013 0.063 
0.001 0.008 
0.001 

0.817 0,599 
0,167 0.315 
0.015 0.075 
0,001 0.010 
0.001 

0.739 0.463 
0,226 0.366 
0.032 0.135 
0.003 0.031 
0.005 

0.001 


0.10 


0.430 
0.353 
0.149 
0.033 
0.005 


0.387 
0.387 
0.172 
0.045 
0,007 
0.001 


0.349 
0.387 
0.194 
0.057 
0.011 
0.001 


0.206 
0.343 
0.267 
0.129 
0.043 
0.010 
0.002 


0,15 


0.272 
0.385 
0.238 
0.084 
0.018 
0.003 


0,232 
0.368 
0.260 
0.107 
0,028 
0,005 
0.001 


0.286 
0.218 
0.116 
0.045 
0.013 
0.003 
0.001 


0.25 


0.20 0.30 0.40 
0,168 0.100 0.058 0.017 
0.336 0.267. 0.198 0.090 
0.294 0.311 0,296 0.209 
0.147 0.208 0.254 0.279 
0.046 0.087 0.136 0.232 
0.009 09.023 0.047 0.124 
0.001 0.004 0.010 0.041 
0.001 0.008 

0.001 

0.134 0.075 0.040 0.010 
0.302 0.225 0,156 0.060 
0,302 0.300 0.267 0,161 
0.176 0,234 0.267 0.251 
0.066 0.117 0,172 0.251 
0.017 0.039 0.074 0.167 
0.003 0.009 0.021 0.074 
0.001 0.004 0.021 

0,004 

0,107 0.056 0.028 0.006 
0.268 0.188 0.121 0.040 
0.302 0.282 0.233 0.121 
0.201 0.250 0,267 0,215 
0.088 0.146 0,200 0.251 
0.026 0.058 0,103 0,201 
0.006 0.016 0.037 0.111 
0.001 0,003 0,009 0,042 
0,001 0.011 

0.002 

0.035 0.013 0.005 0.000 
0.132 0.067 0.031 0.005 
0.231 0.156 0.092 0.022 
0.250 0.225 0.170 0.063 
0.188 0.225 0.219 0.127 
0.103 0.165 0.206 0.186 
0.043 0.092 0,147 0.207 
0.014 0.039 0.081 0.177 
0.003 0.013 0.035 0.118 
0.001 .0.003 0.012 0.061 
0.001 0.003 0.024 

0.001 0.007 

0.002 


0.50 


0.004 
0.031 
0.109 
0.219 
0.273 
0.219 
0.109 
0.031 
0.004 


0.002 
0.018 
0.070 
0.164 
0.246 
0.246 
0.164 
0.070 


0.117 
0.205 
0,246 
0,205 
0,117 
0,044 
0.010 
0.001 


0.000 
0.000 
0.003 
0.014 
0.042 
0.092 
0.153 
0.196 
0.196 
0.153 
0.092 
0.042 
0.014 
0.003 
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Tabla 1 (continuación) 


0,05 0,10 0,15 0,20 0,25 0.30 0.40 0.50 


0.358 0.122 0.039 0.012 0,003 0.001 0.000 0.000 
0.377 0.270 0.137 0.058 0.021 0.007 0,000 0.000 
0.189 0.285 0.229 0.137 0.067 0.028 0.003 0.000 
0.060 0.190 0.243 0.205 0.134 0.072 0.012 0.001 
0.013 0.090 0.182 0.218 0.190 0.130 0,035 0,005 
0.002 0.032 0.103 0.175 0.202 0.179 0.075 0,015 
0.009 0.045 0.109 0.169 0.192 0.124 0.037 

0.002 0.016 0.055 0.112 0.164 0.166 0,074 

0.005 0.022 0.061 0.114 0.180 0.120 

0.001 0.007 0.027 0.065 0,160 0,160 

0.002 0.010 0.031 0,117 0.176 

0,003 0,012 0,071 0.160 

0,001 0.004 0,035 0.120 

0,001 0,015 0,074 


0,005 0,037 
0,001 0,015 
0,005 
0.001 


12.2 Tabla de distribución de Poisson 


En la tabla 2 se recogen probabilidades de la distribución de Poisson 


k 


А 
Р(Х = К) =p(k; UST е^, К=0, 1, 2, ..., 
para algunas 1< 20. Los lugares libres significan que p(k : А) <0,00005. 


Tabla 2 


Ejemplo: p(3; 2,0) =0,1804 


0.3679 
0.3679 
0.1839 
0.0613 
0,0153 
0,0031 
0,0005 
0.0001 


0.0498 
0.1494 
0,2240 
0,2240 
0,1680 
0,1008 
0,0504 
0,0216 
0,0081 
0,0027 
0,0008 
0,0002 
0,0001 


0,1507 
0,1850 
0,2158 
0,1888 
0,1322 
0,0771 
0,0385 
0,0169 
0,0066 
0,0023 
0,0007 
0,0002 


n ana: 
Y VVUA 


о 0003 
VIUUVI 


0,0001 


0,0733 
0,1465 
0,1954 
0,1954 
0,1563 
0,1042 
0,0595 
0,0298 
0,0132 
0,0053 
0,0019 
0,0006 


Tabla 2 (continuación) 
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14 16 18 20 
0.0001 
0.0004 0.0001 
0.0013 0.0003 0.0001 
0.0037 0.0010 0.0002 
0,0087 0.0026 0.0007 0.0002 
0.0174 0.0060 0.0019 0.0005 
0.0304 0.0120 0.0042 0.0013 
0.0473 0.0213 0.0083 0.0029 
0.0663 0.0341 0.0150 0.0059 
0.0844 0.0496 0.0245 0.0106 
0,0984 0.0661 0.0368 0.0176 
0.1060 0.0814 0.0509 0.0271 
0.1060 0.0930 0.0655 0.0387 
0.0989 0.0992 0.0786 0.0517 
0.0866 0.0992 0.0884 0.0645 
0.0713 0.0934 0.0936 0.0760 
0.0554 0.0830 0.0936 0,0844 
0.0409 0.0699 0.0887 0.0888 
0.0286 0.0559 0.0798 0.0: 
0.0191 0.0426 0.0684 0.0 
0.0121 0.0310 0.0559 0.0769 
0.0074 0.0216 0.0438 0.0669 
0.0043 0.0144 0.0328 0.0557 
0.0024 0.0092 0.0237 0.0445 
0.0013 0.0057 0.0164 0.0343 
0.0007 0.0033 0.0109 0.0254 
0.0003 0.0019 0.0070 0.0481 
0.0002 0.0011 0.0044 0925 
0.0001 0.0006 0.0026 0.0084 
0.0002 0.0015 0.0053 
0.0001 0.0009 0.0034 
0.0001 0.0005 0.0020 
0.0003 0.0013 
0.0001 0.0007 
0.0004 
0.0002 
0.0001 


12.3 Tabla de la distribución normal 


La tabla 3 da una panorámica sobre la función de distribución Ф de la distribución nor- 
mal estandarizada 


y 1 x £ 
ow- | ol) dt= A e а. 
Var -= 


= 


para 0< x< 3.9. Рага х<0 se utiliza la relación Ф(х) =1-—Ф(-х) (ver 5.4 (15)). 


"Zs 0 Zs 
ї Б 


(эс E 1-2) 


En la tabla siguiente se agrupan algunos percentiles de la distribución normal estanda- 
rizada, los cuales se utilizan frecuentemente en la realización práctica de las estimaciones 
por intervalo de confianza. indicadas en los epigrafes 10.6.1 a) y 10.6.2, y de las dócimas 
de significación, descritas en los epigrafes 11.1 y 11.4.5. 
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Tabla 3 


Ejemplo: D(1,43) =0,923642 


3,0 
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0, 500000 
0,539828 
0,579260 
0,617911 
0,655422 


А £N14LA 
YU LTDA 


0,725747 
0,758036 
0,788145 
0,815940 


0,841345 
0,864334 
0,884930 
0,903200 
0,919243 


0,933193 
0,945201 
0,955434 
0,964070 
0,971283 


0,977250 
0,982136 
0,986097 
0,989276 
0,991802 


0,993790 
0,995339 
0,996533 
0,997445 
0,998134 


0,998650 


0,503989 
0,543795 
0,583166 
0,621720 
0,659097 


N 204074 
YUITI IT 


0,729069 
0,761148 
0,791030 
0,818589 


0,843752 
0,866500 
0,886861 
0,904902 
0,920730 


0,934478 
0,946301 
0,956367 
0,964852 
0,971933 


0,977784 
0,982571 
0,986447 
0,989556 
0,992024 


0,993963 
0,995473 
0,996636 
0,997523 
0,998193 


0,999032 


0,507978 
0,547758 
0,587064 
0,625516 
0,662757 


A £ADALO 
V 70T 


0,732371 
0,764238 
0,793892 
0,821214 


0,846136 
0,868643 
0,888768 
0,906582 
0,92219% 


0,935744 
0,947384 
0,957284 
0,965620 
0,972571 


0,978308 
0,982997 
0,986791 
0,989830 
0,992240 


0,994132 
0,995604 
0,996736 
0,997599 
0,998250 


0,999313 


0,511966 
0,551717 
0,590954 
0,629300 
0,666402 


A NDAA 
У, газта 


0,735653 
0,767305 
0,796731 
0,823814 


0,848495 
0,870762 
0,890651 


0,908241. 


0,923642 


0,936992 
0,948449 
0,958185 
0,966375 
0,973197 


0,978822 
0,983414 
0,987126 
0,990097 
0,992451 


0,994297 
0,995731 
0,996833 
0,997673 
0,998305 


0,999517 


0,515953 
0,555670 
0,594835 
0,633072 
0,670031 


A ME ANA 
Vy IVIT 


0,738914 
0,770350 
0,799546 
0,826391 


0,850830 
0,872857 
0,892512 
0,909877 
0,925066 


0,938220 
0,949497 
0,959070 
0,967116 
0,973810 


0,979325 
0,983823 
0,987454 
0,990358 
0,992656 


0,994457 
0,995855 
0,996928 
0,997744 
0,998359 


0,999663 


3,0 


0,519938 
0,559618 
0, 598706 
0,636831 
0,673645 


0, 708540 
0,742154 
0,773373 
0,802338 
0,828944 


0,853141 
0,874928 
0,894350 
0,911492 
0,926471 


0,939429 
0,950528 
0,959941 
0,967843 
0,974412 


0,979818 
0,984222 
0,987776 
0,990613 
0,992857 


0,994614 
0,995975 
0,997020 
0,997814 
0,998411 


0,999767 


0,523922 
0,563560 
0,602568 
0,640576 
0,677242 
0,712260 
0,745373 
0,776373 
0,805106 
0,831472 


0,855428 
0,876976 
0,896165 
0,913085 
0,927855 


0,975002 


0,980301 
0,984614 
0,988089 
0,990862 
0,993053 


0,994766 
0,996093 
0,997110 


0,998462 


0,999841 


0,527903 
0,567495 
0,606420 
0,644309 
0,680822 
0,715661 
0,748571 
0,779350 
0,807850 
0,833977 


0,857690 
0,879000 
0,897958 
0,914656 
0,929219 


0,941792 
0,952540 
0,961636 
0,969258 
0,975581 


0,980774 
0,984997 
0,988396 
0,991106 
0;993244 


0,994915 
0,996207 
0,997197 
0,997948 
0,998511 


0,999892 


0,531881 
0,571424 
0,610261 
0,648027 
0,684386 
0,719043 
0,751748 
0,872305 
0,810570 
0,8364537 


0,859929 
0,881000 
0,899727 
0,916207 
0,930563 


0,942947 
0.953521 
0,962462 
0,969946 
0,976148 


0,981237 
0,985371 
0,988696 
0,991344 
0,993431 


0,995060 
0,996319 
0,997282 
0,998012 
0,998559 


0,999928 


0,535856 
0,575345 
0,614092 
0,651732 
0,687933 
0,722405 
0,754903 
0,785236 
0,813267 
0,838913 


0,862143 
0,882977 
0,901475 
0,917736 
0,931889 


0,944083 
0.954486 
0,963273 
0,970621 
0,976704 


0,981691 
0,985738 
0,988989 
0,991576 
0,993613 


0,995201 
0,996427 
0,997365 
0,998074 
0,998605 


0,999952 
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12.4 Tabla de la distribución x? 


La tabla 4 contiene algunos porcentiles Kos, de la distribución у> con / grados de libertad 
(ver 5.6, definición 2) para m=1. 2..... 30. 40..... 100. los cuales se utilizan frecuente- 
mente en la realización práctica de las estimaciones por intervalo de confianza. indicadas 
en los epígrafes 10.6.1 (с) y (d). y de las dócimas de significación descritas en los epigrafes 
11.4.3, 11.5.1, 11.5.3 y 11.5.5 (dócima de dispersión у’ dócima de ajuste у? dócima de 
homogeneidad x?. dócima de independencia 72), 


Tabla 4 


Ejemplo: Xi „= 12.59 


р=0.99 0.975 0.95 0.05 0.025 0.01 
И -р=0.01) (0,025) (0.05) (0.95) (0.975) (0.99) 


1 0.0010 0.0002 
2 9.210 7.378 5.991 0.1026 0.0506 0.0201 
3] 11.34 9.348 7.815 0.3518 0.2158 0.1148 
41 13.28 11.14 9.488 0.7107 0.4844 0.2971 
5 | 15.09 12.83 11,07 1,145 0.8312 0.5543 
6 | 16.81 14,45 12,59 1,635 1232 0.8721 
74 18.48 16.01 14.07 2.167 1.690 1.239 

8| 20.09 17 53 15.51 2.733 2.180 1.646 

9| 21.67 19.02 16.92 3.325 2.700 2.088 
104 23,21 20.48 118.31 3.940 3.347 2.558 
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| p=0.99 0.975 0.95 0.05 0.025 0.01 


d-p=0.0b — 0.025, (0.05) 10.95) (0.975) 0.99}. 
111 24.72 21.92 19.68 34.575 3.816 3.053 
іа): 526,22 23.4 21.03 5.226 4.404 3.571 
13} 27.69 24.74 22.36 5.892 5.009 4.107 
LH 29.14 26.12 23.68 6.571 $.629 4.660 
13] 0,58 27.49 25.00 7.261 6.262 5.229 
16] 32.00 8.55 26.10 7.962 6.908 ALKID 
17] 33.41 0.19 27.59 8,672 7.564 в. 40% 
IR] 34.81 01:53 28.87 9.390 RNI 7.015 
19; 236.19 22,8% 30.14 10.12 2.907 7.633 
20] 37.57 24,17 31.31 10.85 9.591 8.260 

A НЕ 

uf 38.93 35.48 22.67 11.59 10.0% 8.897 
2 40.29 36,08 33.93 15.34 10.98 9,542 
24 41.64 38.08 45.17 13.09 11.69 10.20 
24 42,98 39,16 36.42 13.55 12.40 10.86 
4 ам 40.65 37.65 14.61 13.12 11.52 
зе 45.64 31.92 38.20 15.38 13.84 12,20 
27| 46.96 43.19 30.11 16,15 14.57 12.88 
281 48.28 44,46 41.34 16.93 15,31 13.56 
29 49,59 45.72 42,56 17.71 16.05 14.26 
30| 50.89 46.98 43.77 18.49 16.79 14.95 


40| 63.69 59.34 55.76 26.51 24.43 22.16 
501 76,15 71.42 67.50 34.76 32.36 29.71 
60] KRIK 83.30 79.08 43.19 40.48 37.48 
701 100.42 95.02 90.53 51.74 48. 76 45.44 
х 11У л 106.63 101.88 60.39 57.15 53.54 
904 124.12 118.14 113.13 69.11 65.65 61.75 
1007 135.81 | 24.56 124.34 77.93 74.22 70.06 
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12.5 Tabla de la distribución t 


La tabla 5 contiene algunos percentiles ?,,, de la distribución £ con m grados de libertad 
(ver 5.6, definición 3) рага m=1, 2, ..., 30, 40, 60, 120, =, los cuales se utilizan frecuen- 
temente en la realización práctica de las estimaciones por intervalo de confianza, indica- 
das en el epígrafe 10.6.1b), y en las dócimas de significación descritas en los epígrafes 


11.4.1 y 11.4.2 (dócima г simple, dócima t doble). 


Tabla 5 


Ejemplo: {1.09,=2,110 


0,995 
(0,005) 


0,975 
(0,025) 


Фоо мло na yn mm 


14 1,345 1,761 2,145 2,624 2,977 
15 1,341 1,753 2,131 2,602 2,947 
16 1,337 1,746 2,120 2,583 2,921 
17 1,333 1,740 2,110 2,567 2,898 
18 1,330 1,734 2,101 2,552 2,878 
19 1,328 1,729 2.093 2,539 2,861 
20 1,325 1,725 2.086 2,528 2,845 
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p=0,9 0.95 0,975 
@-р=0,1) (0.05) (0.025) 


12.6 Tabla de la distribución F 


Las tablas ба) у 6b) contienen los percentiles F, ,, , Че la distribución F con (m, т) 
grados de libertad (ver 5.6. definición 4) para р=0.95 у р=0.99. respectivamente. Estos 
percentiles se necesitan especialmente para la realización práctica de la dócima de signi- 
ficación descrita en el epigrafe 11.4.4 (dócima Е) соп el nivel de significación a=10 % o 
a=2%. Además. los números F para р=0.95 y p=0.99 pueden tomarse de las ta- 


mon, lp 
blas ба) y 6b) en virtud de la fórmula 
ЕДИ 
о E m р 
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Tabla 6 


Ejemplo: Fy on =3.37. 


Ру кои == ——=0,32 


1 [161.4 199.5 215.7 224.6 230.2 234.0 236,8 238.9 240,5 
2 18.51 19.00 19.16 19.25 19.30 19.33 19,35 19.37 19.38 
3 10.13 9.55 9.28 9.12 9.01 8,94 8.89 8.85 8.81 
4 7.71 6.94 6.39 6.59 6.26 6.16 6.09 6.04 6.00 
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4,82 4.77 
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 
7 5.59 4.74 4.35 4.12 3,97 3.87 3.79 3.73 3.68 
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 
9 5.12 4.26 3.86 3.63 3.48 3,37 3.29 3.23 3.18 
10 4,96 4,10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 
п 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2,90 
12 4.75 3.89 3.49 3.26 3,11 3.00 2.91 2.85 2.80 
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 
14 4,60 3.74 3.39 3.11 2.96 2.85 2.76 2.70 2.65 
15 4,54 3.68 3.29 .3.06 2.90 2.79 2.71 2.64 2.59 
16 4,49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 
17 4,45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 
18 4,41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 
19 4,38 3.52 3.13 2.90 2.14 2.63 2.54 2.48 2.42 
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2,40 2.34 
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 
24 4.26 3,40 3.01 2.78 2.62 2,51 2,42 2.36 2.30 
25 4,24 3,39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 
26 4.23 3,37 2.98 2.74 2.59 2.47 2.39 232 2,27 
27 4,21 3,35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 
28 4,20 3,34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 
29 4,18 3,33 2.93 2.70 2.55 2.43 2,35 2.28 2.22 
30 4,17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 
40 4.08 3.23 2.84 2.61 2,45 2.34 2.25 2.18 2.12 
60 4,00 3,15 2.76 2.53 2.37 2.25 2.17 2,10 2.04 
120 3,92 3.07 2.68 2.45 2,29 2.17 2.09 2.02 1.96 


3,84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 
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1 |241,9 
21 19.40 
3) 8.79 
4| 5.96 
5| 4.74 
6 | 4,06 
7| 3.64 
8 | 3.35 
9 3,14 

10 | 2.98 

11 | 2.85 

12 | 2.75 

13 || 2.67 

14 | 2.60 

15 | 2.54 

16 | 2.49 

17 | 2.45 

18 | 2.41 


2.38 


243,9 


19,41 
8,74 
5.91 


4,68 
4,00 
3,57 
3,28 
3.07 


2.91 
2.79 
2,69 


245,9 248,0 


19,43 1 
8.70 
5,86 


4.62 
3.94 
3.51 
3.22 
3.01 


2.85 
2.12 
2,62 
2.53 
2.46 


2.40 
2.35 
2.31 
2.27 
2.23 


2,20 
2,18 
2,15 
2,13 
2,11 


2,09 
2.07 
2.06 
2,04 
2,03 


2.01 
1,92 
1,84 
1,75 
1,67 


9,45 
8,66 
5,80 


4.56 
3.87 
3,44 
3,15 
2.94 


2.77 
2.65 
2.54 
2.46 
2.39 


2,33 
2.28 
2.23 
2.19 
2.16 


2.12 
2.10 
2.07 
2.05 
2.03 


2.01 
1,99 
1,97 
1,96 
1,94 


1,93 
1,84 
1.75 
1,66 
1,57 


249.1 
19,45 
8.64 
5.77 


4.53 
3.84 
3,41 
3,12 
2.90 


2,74 
2.61 
2.51 
2.42 
2.35 


2.29 
2.24 
2.19 
2.15 
2.11 


2.08 
2.05 
2,03 
2,01 
1,98 


1,96 
1,95 
1,93 
1,91 
1,90 


1,89 
1,79 
1,70 
1,61 
1,52 


250,1 
19,46 
8,62 
5,75 


4.50 
3.81 
3.38 
3.08 
2.86 


2.70 
2.57 
2.47 
2.38 
2.31 


2.25 
2,19 
2.15 
2.11 
2,07 


2,04 
2.01 
1,98 
1,96 
1,94 


1,92 
1,90 
1,88 
1,87 
1,85 


1,84 
1,74 
1,65 
1,55 
1,46 


251.1 
19,47 
8.59 
5.72 


4.46 
3,77 
3.34 
3.04 
2.83 


2.66 
2.53 
2.43 
2,34 
2.27 


2.20 
2.15 
2.10 
2.06 
2.03 


1.99 
1,96 
1,94 
1,91 
1,89 


1,87 
1,85 
1,84 
1,82 
1,81 


1,79 
1,69 
1,59 
1,50 
1,39 


252,2 
19,48 
8.57 
5.69 


4,43 
3.74 
3.30 
3.01 
2.79 


2.62 
2.49 
2.38 
2.30 
2,22 


2,16 
2,11 
2.06 
2.02 
1.98 


1.95 
1.92 
1.89 
1.86 
1.84 


1,82 
1,80 
1,79 
1,77 
1,75 


1,74 
1,64 
1,53 
1,43 
1,32 
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Tabla 6 (continuación) 


b) p=0,99 (1 —p=0,01) 


1 [40520 49995 5403 5625 5764 5859 5928 5982 6022 
2 | 98,50 99,90 9917 9925 99,30 99,33 99,36 99,37 99,39 
з | 34,12 30,82 29,46 28,71 28,248 27,91 27,67 27,49 21,35 
4 | 21,20 18,00 16,69 15,98 15,520 1521 1498 14,80 14,66 
5 | 16,26 13,27 1206 1,39 1097 10,67 10,46 10,9 1036 
6 | 13,5 1092 978 915 875 8647 8526 810 78 
7 | 1225 9,55 845 785 746 79 699 684 672 
8 | 11,26 865 759 701 663 637 68 603 59 
9 | 10,56 802 699 6420 606 580 560 547 5,35 
10 | 10,04 7,56 655 599 568 539 520 506 494 
11 | 965 721 622 567 532 507 489 474 463 
12 | 933 693 595 541 506 4820 464 450 4539 
13 | 907 670 574 521 486 462 444 430 419 
14 | 8,86 651 556 504 469 446 428 414 4,03 
15 | 8,68 636 542 489 4558 4320 4164 40 3,89 
16 | 8,53 6253 529 47 444 40 4058 389 3,78 
17 | 30 би 518 467 434 40 393 379 3.68 
18 | 629 601 509 458 425 401 384 371 3,60 
19 | 818 593 501 450 417 394 377 363 352 
20 | 8,10 585 499 443 40 387 370 3556 346 
21 | во 578 48т 437 404 381 364 351 3,40 
22 | 7,95 572 4820 431 3948 376 35598 345 335 
23 | 788 566 4768 3268 371 371 3,54 341 330 
24 | 1,52 561 472 4220 380 367 3,580 336 326 
25 | тт 557 468 418 385 363 345 332 322 
26 | 1,72 553 4608 4404 380 3,598 3420 3,9 з 
27 | 7,68 549 460 40 3768 356 339 326 315 
28 | 7,64 545 457 407 3.75 3,553 336 323 30 
29 | 7,60 560 4508 4060 373 3580 333 320 309 
30 | 7,56 539 451 4020 370 347 330 317 30 
40 | 731 518 431 383 351 3529 3512 299 289 
60 | 708 498 413 365 3,34 31020 295 282 2172 
120 | 685 479 3,95 348 317 296 279 266 2,56 


3,32 2,80 
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30 40 60 120 so 


6056 6106 6157 6209 6235 6261 6287 6313 6339 6366 
99,40 99,42 99,43 99,45 99,46 99,47 99,41 99,48 99.49 99,50 
27,23 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,22 26,13 
14,55 14,37 14,20 14,02 13,93 13,84 13,75 1365 13.56 13,46 


9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,11 9,02 
7,87 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,97 6,88 
6,62 6,47 6,31 6,16 6,07 5,99 5,91 5.82 5,74 5,65 
5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,95 4,86 
5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,40 4,31 


4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,00 3,91 
4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,69 3,60 
4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,45 3,36 

4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,25 3,17 
14 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,09 3,00 


15 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,96 2,87 
16 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,84 2,75 
17 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,75 2,65 
18 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,66 2,57 


19 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,58 2,49 
20 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,52 2,42 
21 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,46 2,36 


22 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,40 2,31 
23 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,35 2,26 
24 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,31 2,21 


25 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,27 2,17 
26 3,09 2,96 2,81 2,66 2,58 2,50 2,42 2,33 2,23 2,13 
27 3,06 2,93 2,78 2,63 2,55 2,47 2,38 2,29 2,20 2,10 
28 3,03 2,90 2,75 2,60 2,52 2,44 2,35 2.26 2,17 2,06 
29 3,00 2,87 2,73 2,57 2,49 2,41 2,33 2,23 2,14 2,03 


30 2,98 2,84 2,70 2,55 2,47 2,39 2,30 2,21 2,11 2,01 
40 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,92 1,80 
60 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,73 1,60 
120 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,53 1,38 
оо 2,32 2,18 2,04 1.88 1,79 1,70 1,59 1,47 1,32 1,00 
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13. Breve bosquejo de la historia del cálculo 
de probabilidades 


Después que hemos expuesto la construcción matemática, usual hoy día, de la teoría de 
probabilidades y tratado algunas tareas esenciales que se plantea la estadística matemá- 
tica, queremos dar en este último capítulo una breve panorámica de la historia del cálculo 
de probabilidades, con la cual deben ser completadas, perfiladas y clasificadas las obser- 
vaciones históricas incluidas en los capitulos precedentes. 

El cálculo de probabilidades pertenece a las disciplinas matemáticas relativamente jó 
venes; ella tiene solo escasamente tres siglos de existencia. Sin embargo, el mundo mis- 
terioso de la casualidad interesó a los sabios en el más temprano estadio del pensamiento 
cientifico. Así, el concepto probabilidad surgió ya en la filosofia griega antigua. La idea 
de que las regularidades de la naturaleza se expresan mediante un número enorme de fe- 
nómenos aleatorios, se presenta también en los materialistas griegos de la antigüedad. 
(Esta idea toma cuerpo muy claramente, por ejemplo, en la poesía “De rarum natura” 
(Sobre la naturaleza de las cosas) de Lukrez (un siglo antes de nuestra era).) Pero el de- 
sarrollo hacia una disciplina científica independiente comienza solo en la mitad del siglo 
XVII. Estimulado por preguntas acerca de las probabilidades de ganancia en juegos de 
azar, formuladas por un jugador apasionado amigo suyo, el caballero de Méré, el notable 
matemático francés Blaise Pascal (1623-1662) estableció en el año 1654 un intercambio de 
correspondencia con el no menos famoso Pierre de Fermat (1601-1665), en la cual fueron 
desarrollados -yendo más allá del propio motivo- fundamentos importantes del cálculo de 
probabilidades. Ya desde antes, hubo sabios que se ocuparon con problemas especiales so- 
bre las probabilidades en juegos de azar, como por ejemplo, el monje franciscano Luca de 
Pacioli (1445-1514) en su libro publicado en 1494 “Summa de Arithmetica, Geometria, 
Proportioni e Proportionalita” , el médico milanés Hieronimo Cardano (1501 hasta 1576) 
en su obra “Liber de ludo aleae” (Libro sobre los juegos de azar) y también Galileo Ga- 
lilei (1564-1642). El cálculo de probabilidades fue concebido por primera vez como un 
medio adecuado para la investigación de fenómenos aleatorios por Pascal y Fermat. 

También el físico, matemático y astrónomo holandés Christiaan Huygens'(1629-1695) 
estuvo consciente de la significación de esta nueva dirección matemática. Así escribió 61 
en su libro “Пе ratiociniis in ludo aleae” (Sobre los cálculos posibles en juegos de azar), 
publicado en 1658 y en el que se toma como referencia las ideas expresadas por Pascal 
y Fermat: “... que el lector observa en un estudio atento del objeto, que no se trata solo 
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de juegos, sino que aquí se desarrollan las bases de una teoría muy interesante y produc- 
tiva”! 

Solo que a causa del nivel relativamente bajo de desarrollo de las ciencias naturales fue- 
ron en este tiempo los juegos de azar, las interrogantes de la estadistica poblacional y las 
tareas de aseguramiento, los únicos problemas concretos sobre la base de los cuales pudo 
ser desarrollado el cálculo de probabilidades. 

En el libro mencionado de Huygens no aparece, por lo demás, el concepto “ probabili- 
dad”: en él siempre se habla de “valor de la esperanza”, magnitud que hoy denominamos 
valor esperado. El concepto probabilidad se definió por primera vez en el libro publicado 
en 1713 “Ars conjectandi” (El arte del suponer) de Jakob Bernoulli (1654-1705); aquí se 
entendió por probabilidad “el grado de certeza, que con respecto a la certeza se comporta 
como la parte al todo”? una definición que tiene más carácter filosófico que matemático. 

La obra “Ars conjectandi”, que se puede considerar como primer libro de texto del 
cálculo de probabilidades, contiene, además de un tratamiento completo de todos 10$ pro- 
blemas sin solución señalados por Huygens, una deducción notablemente exacta (no solo 
para las condiciones de aquel entonces) de la proposición formulada hoy como Ley de los 
grandes números de Bernoulli; con ella se da, por consiguiente, una explicación teórica 
de la estabilización de la frecuencia relativa de este hecho observado una y otra vez y co- 
nocido ya antes de Bernoulli. El mérito de Bernoulli no consiste, por tanto, en el descu- 
brimiento de este fenómeno -con referencia a esto, el propio Bernoull+escribió en “Ars 
conjectandi”:'A cada uno le está claro también que no es suficiente para valorar un fe- 
nómeno cualquiera hacer una o dos observaciones, sino que es necesario un número gran- 
de de ellas. Por esta razón, el hombre más limitado sabe por sí mismo y sin ninguna ins- 
trucción anterior (lo cual es asombroso), que cuanto más observaciones se tomen en con- 
sideración tanto menor será el peligro de no lograr el objetivo”; el mérito de Jakob Ber- 
noulli consiste sobre todo en la explicación teórica, rigurosamente fundamentada, de esta 
situación. Para esta época fue característico que hechos empíricos -como por ejemplo, la 
estabilización de las frecuencias relativas- fueran conocidos, pero que no se buscaran fun- 
damentaciones teóricas para ellos; estos hechos fueron considerados más bien como ma- 
nifestaciones del orden divino, que no requerían ninguna otra aclaración. 

El matemático francés Abraham De Moivre (1667-1754) logró entonces, entre otras co- 
sas. la formulación cuantitativa de la Ley de los grandes números de Bernoulli con la pro- 
posición que hemos denominado como Teorema integral de De Moivre-Laplace, y tam- 
bién, relacionado con esto, descubrió la distribución normal (ver el final de 5.4). 

La indicación explícita de la llamada definición clásica de probabilidad se encuentra 
por primera vez en la obra fundamental aparecida еп 1812 “Theorie analytique des pro- 
babilités” (Teoria analítica de las probabilidades) del importante matemático y físico fran- 
cés Pierre Simon Laplace (1749-1827). Allí se considera -en completa concordancia con 
la concepción actual- la definición clásica de probabilidad, no tanto como una definición, 
sino como una fórmula para el cálculo de probabilidades en casos concretos, para los cua- 
les se satisfacen ciertas condiciones; Laplace escribió: “Га probabilidad de un suceso es 
la razón del número de casos propicios y el de todos los posibles, suponiéndose los dis 
tintos casos como igualmente posibles”. 


1В.У.: La cita fue tomada de [15]. 
28.V.: La cita fue tomada de [6]. 


Ура cita fue tomada de [15]. 
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La nombrada obra de Laplace contiene una exposición sistemática de los resultados clá- 
sicos del cálculo de probabilidades, se demuestran los teoremas conocidos entonces, en 
particular la proposición denominada hoy día como Teorema Integral de De Moivre-La- 
place; además, Laplace expuso el método de la suma de los mínimos cuadrados desarro- 
llado por él (e independientemente y casi al mismo tiempo por Carl Friedrich Gauss 
(1777-1855) y por Adrien Marie Legendre (1752-1833)) en relación con problemas del 
cálculo de errores y de compensación. Él se ocupó también de la aplicación del cálculo 
de probabilidades a interrogantes de la estadística poblacional y realizó investigaciones es- 
tadísticas sobre la base de un amplio material numérico. 

Los trabajos de Laplace sobre el cálculo de probabilidades junto con los trabajos del 
matemático francés Siméon Denis Poisson (1781-1840), forman parte importante de los 
grandes progresos en esta especialidad en las postrimerías del siglo XVIII e inicios del XIX. 
Poisson realizó una generalización de la Ley de los grandes números de Bernoulli -de él 
provino también el concepto ““Ley de los grandes números” -al caso de experimentos if- 
dependientes en los cuales la probabilidad de la ocurrencia de un suceso es dependiente 
del número del experimento. Además, extendió el Teorema integral de De Moivre-Laplace 
a este caso y descubrió con esto la distribución de probabilidad que lleva su nombre; él 
aplicó los resultados obtenidos, en particular, a la balística. 

Mediante De Moivre, Laplace y Poisson sobrevino un incremento considerable en el de- 
sarrollo de métodos analíticos especiales del cáicuio de probabilidades, con numerosos re- 
sultados hermosos y valiosos; los problemas de las ciencias naturales (por ejemplo, de la 
balística y la astronomía) y las interrogantes relacionadas con la teoría de los errores de 
observación sirvieron sobre todo de estimulo para esto. 

Es verdad que en aquel tiempo existieron bastantes valoraciones erróneas en cuanto a 
las posibilidades de aplicación del cálculo de probabilidades, a las cuales dieron lugar sus 
representantes más prominentes. Así por ejemplo, fue intentado -con intercesión y favo- 
recimiento enérgico de Laplace y Poisson- abarcar por medio del cálculo de probabilida- 
des el contenido de verdad del veredicto de un jurado llevado a cabo por mayoría de vo- 
tos. Esto repercutió desventajosamente en el desarrollo del cálculo de probabilidades. So- 
bre la base de los -forzosamente declarados- fracasos se convirtió en desilusión el entu- 
siasmo existente al principio por el cálculo de probabilidades en los centros científicos de 
Europa Occidental, surgieron dudas o incluso rechazo; en el mejor de los casos fue corr 
cebido el cálculo de probabilidades como objeto de la conversación matemática. 

Frente a esto, el desarrollo impetuoso de la física impuso elevadas exigencias a la ma- 
temática, en general, y al cálculo de probabilidades, en particular. En este tiempo se de- 
sarrolló una fuerte escuela del cálculo de probabilidades en la entonces ciudad de San Pe- 
tersburgo. Ella fue fundada por Pasnudi Luovich Chebyshev (1821-1894), quien publicó en 
total solo cuatro trabajos sobre el cálculo de probabilidades, pero cuya influencia sobre 
el desarrollo posterior de esta disciplina es considerable. Los méritos de Chebyshev con- 
sisten, sobre todo, en que hizo estimaciones acerca de las posibles desviaciones de las ге- 
gularidades límites y en que elaboró métodos apropiados para describir esto. Además, im- 
puso la exigencia hacia un rigor absoluto en las demostraciones de los teoremas límites 
e indicó el lugar central correspondiente а los conceptos “variable aleatoria” y “valor es- 
perado” en el sistema de conceptos del cálculo de probabilidades. Famosos representantes 
de la escuela rusa del cálculo de probabilidades fundada por Chebyshev fueron Andrei 
Andreevich Markov (1856-1922) y Alexander Mikailovich Liapunov (1857-1918); nos en- 
contramos estos nombres ya, en el tratamiento de las leyes de los grandes números y de 
los teoremas límites del cálculo de probabilidades. 
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No obstante la importancia de los resultados logrados al final del siglo pasado y al ini- 
cio del nuestro en el cálculo de probabilidades y en su aplicación, este permaneció atrás 
en comparación con otras teorías, en lo referente al desarrollo de los fundamentos de la 
teoria matemática. De forma sorprendente, el cálculo de probabilidades no fue alcanzado 
durante largo tiempo por la enorme transformación de la matemática en el siglo XIX, que 
estuvo caracterizada por la construcción axiomática de teorías matemáticas, lógicamente 
compatibles, cerradas en sí y desligadas de la realidad (por ejemplo, la Teoría de Conjuntos, 
la Topología). Dijimos ya anteriormente (véase para ello lá introducción de 2) que en el 
segundo Congreso Internacional de Matemáticos en Paris en el año 1900, David Hilbert 
(1862-1943) mencionó como uno de los problemas matemáticos más importantes la acla- 
ración de los conceptos básicos del cálculo de probabilidades. Con esta tarea se ocuparon 
muchos matemáticos, entre ellos el matemático austríaco Richard Von Mises (1883- 
1953), cuya tentativa para la solución de esta tarea provocó vehementes -y por lo demás 
fructíferas discusiones y estimuló el interés de muchos matemáticos. Una solución satis- 
factoria del problema formulado por Hilbert se realizó con la publicación (1933) del fa- 
moso matemático soviético Andrei Nikolaevich Kolmogorov (nacido en 1903), quien des- 
pués de numerosos trabajos preliminares logró emprender una construcción axiomática 
del cálculo de probabilidades, de acuerdo con el espíritu de la matemática moderna. Aquí 
fueron representados los sucesos aleatorios mediante conjuntos y la probabilidad se соп- 
cibió como una función definida sobre estos conjuntos con determinadas propiedades, ca- 
racterizadas mediante axiomas. Esta construcción condujo no solo a la aclaración de los 
fundamentos lógicos del cálculo de probabilidades, sino también permitió, en particular, 
la utilización de disciplinas matemáticas modernas altamente desarrolladas, por ejemplo, 
de la Teoría de Conjuntos y del Análisis, en especial, de la Teoría de la Medida y de la 
Integración. El cálculo de probabilidades se desarrolló desde entonces impetuosamente, 
tanto respecto a la teoría matemática, como al campo de aplicación de esta teoría. 

Hoy en día un gran número de centros de altos rendimientos se ocupan de la Teoría 
de probabilidades, la Estadística matemática y las numerosas disciplinas especiales surgi- 
das de estas. Una función rectora corresponde a los teóricos soviéticos de las probabilidades 
cuyos trabajos son de intérés y poseen reconocimiento internacional. En los primeros 
años después de la Revolución de Octubre, se concentró el circulo de los que se ocupaban 
en la URSS de la Teoría de las probabilidades, sobre todo en Moscú, alrededor de Ale- 
xander Jakovlevich Kinchine (1894-1959), uno de los representantes más significativos de 
la Teoría de probabilidades de nuestro siglo, y de A.N. Kolmogorov; hoy existe una mul- 
titud de centros de la Teoría de probabilidades en la URSS, considerados internacional- 
mente. En la RDA ocupa la Teoría de las probabilidades un lugar fijo en el marco de la 
formación en universidades e institutos de enseñanza superior y también en la investiga- 
ción matemática. En el camino hacia este objetivo fue muy provechoso el magisterio de 
B. V. Gnedenko en el año 1953, en la Universidad de Humboldt, en Berlín, y muchos de 
los matemáticos de la RDA que hoy investigan en el campo de la Teoría de probabilidades 
fueron formados en la Unión Soviética o permanecieron allí para realizar estudios. 

Desde hace algunos años se hacen mayores esfuerzos -también en marcos internaciona- 
les- para incluir el Cálculo че Probabilidades, de forma adecuada, en la formación ma- 
temática en las escuelas de enseñanza general. 
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